https://t.me/s/moreality🌐 一些本人的碎碎念,汇聚了几个主要的日常分享渠道📝 内容包括但不限于:🏃 日常生活,👨‍💻 工具分享,📖 书影音,体育赛事(⚽️曼城球迷)💡 所有内容均为在曾经某一时刻的观点。
#llm #leaderboard

一个 LLM coding leaderboard:

https://aider.chat/docs/leaderboards/

使用多语言基准测试,要求LLM编辑源文件以完成225个来自Exercism的编程练习,这些练习涵盖了C++、Go、Java、JavaScript、Python和Rust等多种流行编程语言


via Memos

Invalid media: image
#mark #ai #llm #leaderboard

MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。

https://huggingface.co/spaces/mteb/leaderboard

via Memos
#mark #gpt #leaderboard

https://lmarena.ai/?leaderboard

LLM Model 排行榜:

Chatbot Arena (lmarena.ai) 是由加州大学伯克利分校 SkyLab 和 LMSYS 开发的开源平台,用于通过人类偏好评估 AI。该平台通过超过 100 万次用户投票,使用 Bradley-Terry 模型生成实时排行榜,以评选最佳 LLM 和 AI 聊天机器人。


via Memos
#llm #leaderboard

一个 LLM coding leaderboard:

https://aider.chat/docs/leaderboards/

使用多语言基准测试,要求LLM编辑源文件以完成225个来自Exercism的编程练习,这些练习涵盖了C++、Go、Java、JavaScript、Python和Rust等多种流行编程语言


via Memos

Invalid media: image
#llm #leaderboard

Artificial Analysis LLM Leaderboard

Artificial Analysis 的评测方法注重实际应用场景,尤其是 API 调用的性能表现,这与 LMSYS Chatbot Arena 等更注重输出质量的评测形成互补

https://artificialanalysis.ai/leaderboards/models

via Memos