Morealityの碎碎念

https://t.me/s/moreality🌐 一些本人的碎碎念，汇聚了几个主要的日常分享渠道📝 内容包括但不限于：🏃 日常生活，👨‍💻 工具分享，📖 书影音，体育赛事（⚽️曼城球迷）💡 所有内容均为在曾经某一时刻的观点。

06:48 · Apr 21, 2025 · Mon

#llm #leaderboard

一个 LLM coding leaderboard:

● https://aider.chat/docs/leaderboards/

使用多语言基准测试，要求LLM编辑源文件以完成225个来自Exercism的编程练习，这些练习涵盖了C++、Go、Java、JavaScript、Python和Rust等多种流行编程语言

via Memos

Invalid media: image

06:47 · Apr 21, 2025 · Mon

#llm #leaderboard

● 比较 LLM API 性能: https://artificialanalysis.ai/leaderboards/models
● 另一个比较 LLM price 的: https://countless.dev/

via Memos

llm leaderboard

06:46 · Apr 21, 2025 · Mon

#mark #ai #llm #leaderboard

MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。

● https://huggingface.co/spaces/mteb/leaderboard

via Memos

mark ai llm leaderboard

06:45 · Apr 21, 2025 · Mon

#mark #gpt #leaderboard

● https://evalplus.github.io/leaderboard.html

一个专门评测 AI coding 的 LLM 评测

via Memos

mark gpt leaderboard

06:43 · Apr 21, 2025 · Mon

#mark #gpt #leaderboard

● https://lmarena.ai/?leaderboard

LLM Model 排行榜:

Chatbot Arena (lmarena.ai) 是由加州大学伯克利分校 SkyLab 和 LMSYS 开发的开源平台，用于通过人类偏好评估 AI。该平台通过超过 100 万次用户投票，使用 Bradley-Terry 模型生成实时排行榜，以评选最佳 LLM 和 AI 聊天机器人。

via Memos

mark gpt leaderboard

05:19 · Apr 2, 2025 · Wed

#llm #leaderboard

一个 LLM coding leaderboard:

● https://aider.chat/docs/leaderboards/

使用多语言基准测试，要求LLM编辑源文件以完成225个来自Exercism的编程练习，这些练习涵盖了C++、Go、Java、JavaScript、Python和Rust等多种流行编程语言

via Memos

Invalid media: image

llm leaderboard

01:49 · Jan 25, 2025 · Sat

#llm #leaderboard

Artificial Analysis LLM Leaderboard

Artificial Analysis 的评测方法注重实际应用场景，尤其是 API 调用的性能表现，这与 LMSYS Chatbot Arena 等更注重输出质量的评测形成互补

https://artificialanalysis.ai/leaderboards/models

via Memos

llm leaderboard

Home