Morealityの碎碎念

06:48 · Apr 21, 2025 · Mon

#gpt #o3-mini

这... 我用的降智版本?

via Memos

06:46 · Apr 21, 2025 · Mon

#mark #claude #gpt #deepseek #ai

手动查了下目前几个常见 LLM API 的官方价格差异 (输入均为缓存未命中价格):

1 - Claude 3.5 Sonnet

ref: https://www.anthropic.com/pricing?t#anthropic-api

● 输入成本: $3.00 每百万个令牌
● 输出成本: $15.00 每百万个令牌

2 - OpenAI GPT-4o

ref: https://openai.com/api/pricing/?t

● 输入成本: $2.50 每百万个令牌
● 输出成本: $10.00 每百万个令牌

3 - DeepSeek

ref: https://api-docs.deepseek.com/zh-cn/quick_start/pricing

● 输入成本: ¥2 每百万个令牌 (2025-02-08 后, 目前是1元, 下同)
● 输出成本: ¥8 每百万个令牌 (目前是2元)

via Memos

mark claude gpt deepseek ai

06:46 · Apr 21, 2025 · Mon

#gpt #claude #ai

同样是 claude 3.5, 看来 API 和官网还是有区别

via Memos

gpt claude ai

06:45 · Apr 21, 2025 · Mon

#mark #gpt #leaderboard

● https://evalplus.github.io/leaderboard.html

一个专门评测 AI coding 的 LLM 评测

via Memos

mark gpt leaderboard

06:44 · Apr 21, 2025 · Mon

#gpt #claude #tools

一个将 github repo 打包成单个 txt / xml / markdown 等纯文本文件的工具:

repomix (原名叫 repopack): https://github.com/yamadashy/repomix

众所周知 claude project 支持的文本类型包括:

● PDF
● DOCX
● CSV
● TXT
● HTML
● ODT
● RTF
● EPUB
● JSON

因此通过 repomix 可以直接让 claude 在 projects 中分析单个仓库的所有代码.

via Memos

gpt claude tools

06:44 · Apr 21, 2025 · Mon

#gpt #test

一个有意思的 GPT 测试问题:

小李在纸上写了一个四位数A,把A的个位数字移到首位,得到另一个四位数 B,最后把A和B加起来得到和数C,并且C也是一个四位数。

已知A的各位数字之和是20,C的百位和十位数学分别是0和4。

那么C代表的四位数是?

答案是 8041

测试时间: 2024-12-09

本问题通过的模型: claude 3.5 sonnet, gpt-4o (官网未降智)

失败的模型: gpt-4o (API), gemini-1.5-pro-latest

偶尔成功的模型: gemini-exp-1206

其中 claude 3.5 sonnet 和 gpt 4o 都是通过准确的代码执行穷举出正确解.

而 gemini 1.5 pro / gemini exp 1206 虽然近期排名高, 但是还是输出了超长一段文本, 然后多次给出错误回复, 十次只有一两次给出了正确解

Update: 如果明确指出需要「通过运行程序给出答案」, 并且开启 gemini 的 code execution, 也是可以得到正确解的, 但是如果仅仅开启 code execution, 不在问题中指出需要程序解, 那么 gemeni 还是不会主动给出代码并执行

问题来源: https://linux.do/t/261827/32

via Memos

Invalid media: image

gpt test

06:44 · Apr 21, 2025 · Mon

#llm #gpt #claude #gemini

google 的 gemini 居然登顶了..

看来下周要体验一下了.

而且 free plan 居然这么有诚意

● 使用 & 介绍: https://aistudio.google.com/app/plan_information
● 更新日志: https://ai.google.dev/gemini-api/docs/changelog?hl=zh-cn

memos/gCMhr54XZ7T79zoAemRzry

via Memos

llm gpt claude gemini

06:43 · Apr 21, 2025 · Mon

#claude #gpt

关于 claude pro 的 token 限制:

● About Claude Pro usage

也就是说大约每 5 小时可以聊天 45 句, 并且单次上下文限制在 200 个 15 个英文单词左右的句子.

官方提出的建议 How can I maximize my Claude Pro usage?

1. 尽可能每次用新对话提问题, Claude也会对简短的对话更快地做出回应。
2. 一次性提出多个问题，尤其是当你想问Claude关于长文档的问题时。因为每次你发送新的消息，Claude都需要重新阅读对话，所以将问题分开在单独的消息中提出会比包含多个问题的单条消息更快地耗尽你的限制。
3. 不要重新上传文件。Claude可以看到你对话中的整个上下文，所以你不需要多次上传相同的文件（除非你开始新的对话）。

claude 文档 (中文): https://docs.anthropic.com/zh-CN/docs/welcome

via Memos

claude gpt

06:43 · Apr 21, 2025 · Mon

#gpt #claude

斥巨资体验一把 claude pro

PS: 付款直接用的美区 app store 内购 + 礼品卡, 礼品卡购买是支付宝的小程序
memos/fbcb2096bda2b514

via Memos

Invalid media: image

gpt claude

06:43 · Apr 21, 2025 · Mon

#mark #gpt #leaderboard

● https://lmarena.ai/?leaderboard

LLM Model 排行榜:

Chatbot Arena (lmarena.ai) 是由加州大学伯克利分校 SkyLab 和 LMSYS 开发的开源平台，用于通过人类偏好评估 AI。该平台通过超过 100 万次用户投票，使用 Bradley-Terry 模型生成实时排行榜，以评选最佳 LLM 和 AI 聊天机器人。

via Memos

mark gpt leaderboard

06:42 · Apr 21, 2025 · Mon

#gpt

claude 新模型: claude 3.5 haiku

● https://www.anthropic.com/news/3-5-models-and-computer-use

via Memos

Invalid media: image

gpt

01:49 · Feb 1, 2025 · Sat

#gpt #o3-mini

这... 我用的降智版本?

via Memos

gpt o3

09:28 · Jan 11, 2025 · Sat

#mark #claude #gpt #deepseek #ai

手动查了下目前几个常见 LLM API 的官方价格差异 (输入均为缓存未命中价格):

1 - Claude 3.5 Sonnet

ref: https://www.anthropic.com/pricing?t#anthropic-api

● 输入成本: $3.00 每百万个令牌
● 输出成本: $15.00 每百万个令牌

2 - OpenAI GPT-4o

ref: https://openai.com/api/pricing/?t

● 输入成本: $2.50 每百万个令牌
● 输出成本: $10.00 每百万个令牌

3 - DeepSeek

ref: https://api-docs.deepseek.com/zh-cn/quick_start/pricing

● 输入成本: ¥2 每百万个令牌 (2025-02-08 后, 目前是1元, 下同)
● 输出成本: ¥8 每百万个令牌 (目前是2元)

via Memos

mark claude gpt deepseek ai

09:19 · Jan 11, 2025 · Sat

#gpt #claude #ai

同样是 claude 3.5, 看来 API 和官网还是有区别

via Memos

gpt claude ai

01:39 · Dec 27, 2024 · Fri

#mark #gpt

● https://evalplus.github.io/leaderboard.html

一个专门评测 AI coding 的 LLM 评测

via Memos

mark gpt

14:19 · Dec 9, 2024 · Mon

#gpt #claude #tools

一个将 github repo 打包成单个 txt / xml / markdown 等纯文本文件的工具:

repomix (原名叫 repopack): https://github.com/yamadashy/repomix

众所周知 claude project 支持的文本类型包括:

● PDF
● DOCX
● CSV
● TXT
● HTML
● ODT
● RTF
● EPUB
● JSON

因此通过 repomix 可以直接让 claude 在 project 中分析单个仓库的所有代码.

via Memos

gpt claude tools

04:49 · Dec 9, 2024 · Mon

#gpt #test

GPT 测试问题收集:

小李在纸上写了一个四位数A,把A的个位数字移到首位,得到另一个四位数 B,最后把、填空题A和B加起来得到和数C,并且C也是一个四位数。已知A的各位数字之和是20,C的百位和十位数学分别是0和4。那么C代表的四位数是

答案是 8041

via Memos

gpt test

16:39 · Dec 8, 2024 · Sun

#llm #gpt #claude #gemini

google 的 gemini 居然登顶了..

看来下周要体验一下了.

而且 free plan 居然这么有诚意

https://aistudio.google.com/app/plan_information

via Memos

llm gpt claude gemini

15:19 · Dec 7, 2024 · Sat

#claude #gpt

关于 claude pro 的 token 限制:

● https://support.anthropic.com/en/articles/8324991-about-claude-pro-usage

也就是说大约每 5 小时可以聊天 45 句, 并且单次上下文限制在 200 个 15 个英文单词左右的句子.

官方提出的建议 How can I maximize my Claude Pro usage?:

1. 尽可能每次用新对话提问题, Claude也会对简短的对话更快地做出回应。
2. 一次性提出多个问题，尤其是当你想问Claude关于长文档的问题时。因为每次你发送新的消息，Claude都需要重新阅读对话，所以将问题分开在单独的消息中提出会比包含多个问题的单条消息更快地耗尽你的限制。
3. 不要重新上传文件。Claude可以看到你对话中的整个上下文，所以你不需要多次上传相同的文件（除非你开始新的对话）。

via Memos

claude gpt

14:49 · Dec 7, 2024 · Sat

#gpt #claude

斥巨资体验一把 claude pro

via Memos

gpt claude