Morealityの碎碎念

12:51 · Apr 23, 2025 · Wed

#llm

DeepSeek 在中文语言逻辑这块还是挺可以的，刚自己一个很简单的语法测试:

"张总经理和李总工程师正在讨论一个技术改造项目，他同意他的看法" 试了一下各个 AI, 居然就 deepseek v3 / r1 能找到问题。

via Memos

llm

10:42 · Apr 21, 2025 · Mon

#prompt #llm #AI

Google prompt engineering (谷歌官方「Prompt Engineering」白皮书，一共 68页)

● 翻译: https://baoyu.io/blog/google-prompt-engineering-whitepaper

via Memos

Invalid media: file

prompt llm AI

06:49 · Apr 21, 2025 · Mon

#llm

grok 启动，充值 5 刀白嫖 150 刀～

via Memos

Invalid media: image

llm

06:48 · Apr 21, 2025 · Mon

#llm #leaderboard

一个 LLM coding leaderboard:

● https://aider.chat/docs/leaderboards/

使用多语言基准测试，要求LLM编辑源文件以完成225个来自Exercism的编程练习，这些练习涵盖了C++、Go、Java、JavaScript、Python和Rust等多种流行编程语言

via Memos

Invalid media: image

llm leaderboard

06:48 · Apr 21, 2025 · Mon

#bb #llm

groq 这个推理速度真的逆天

via Memos

Invalid media: image

bb llm

06:48 · Apr 21, 2025 · Mon

#llm #ai

DeepSeek-R1 论文详解 part 3：GPT发展史 | scaling law | 训练范式 | emergent ability

● https://www.youtube.com/watch?v=6fPvbIFF_wY

via Memos

llm ai

06:47 · Apr 21, 2025 · Mon

#llm #leaderboard

● 比较 LLM API 性能: https://artificialanalysis.ai/leaderboards/models
● 另一个比较 LLM price 的: https://countless.dev/

via Memos

llm leaderboard

06:47 · Apr 21, 2025 · Mon

#llm

Bilibili 技术: 大模型推理加速的研究与分析

加速方案的主要思路

1 - 算子层优化：

● Operator Fusion：通过将多个算子融合为一个复杂算子，减少内存访存次数，加快计算速度。
● High-Performance Acceleration Library：使用如ONNX Runtime、TVM、cuBLAS、FasterTransformer等高性能加速库，优化常见的神经网络算子的计算性能。
● Layer Fusion：在多头注意力机制中，将所有操作合并到一个计算核中，减少数据传输并提高数学密度。

2 - 算法层优化：

● Quantization Techniques：使用精度更低的单位来表示模型的权重或激活值，以节省空间和加速模型推理速度。
● Speculative Decoding：通过使用一个简洁且反应迅速的小型模型来辅助解码，提升推理速度。
● Sharding Strategy Optimization：通过模型分片将不同部分的计算任务分布到多个设备上，减少单个设备的内存压力和计算瓶颈。

3 - 框架层优化：

● Contiguous Batching：通过在推理过程中保持请求的连续批量处理，减少上下文切换和内存调度带来的开销。
● PageAttention：优化Attention机制中的KV存储，减少内存占用，提高内存访问效率。
● TensorRT-LLM和MindelIE-LLM框架：通过支持多种Attention机制和流水线并行、跨层并行等技术，提高推理的吞吐量和响应速度。

via Memos

llm

06:46 · Apr 21, 2025 · Mon

#llm #ai

感觉现在 deepseek 的程度已经可以让我不用续费 gpt、claude 和 perplexity 了，搜索和 r1 目前都做的已经很好了。

下个月计划就只留下一个 Claude 用来查漏补缺了。

via Memos

llm ai

06:46 · Apr 21, 2025 · Mon

#mark #ai #llm #leaderboard

MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。

● https://huggingface.co/spaces/mteb/leaderboard

via Memos

mark ai llm leaderboard

06:46 · Apr 21, 2025 · Mon

#llm #cache

关于 LLM API 的 cache hit (缓存命中)

● deepseek 的解释(比较详细): https://api-docs.deepseek.com/zh-cn/guides/kv_cache
● 一篇知乎文章: LLM Best Practice：Prompt caching

via Memos

llm cache

06:44 · Apr 21, 2025 · Mon

#llm #gpt #claude #gemini

google 的 gemini 居然登顶了..

看来下周要体验一下了.

而且 free plan 居然这么有诚意

● 使用 & 介绍: https://aistudio.google.com/app/plan_information
● 更新日志: https://ai.google.dev/gemini-api/docs/changelog?hl=zh-cn

memos/gCMhr54XZ7T79zoAemRzry

via Memos

llm gpt claude gemini

15:22 · Apr 12, 2025 · Sat

#llm

grok 启动，充值 5 刀白嫖 150 刀～

via Memos

Invalid media: image

llm

05:19 · Apr 2, 2025 · Wed

#llm #leaderboard

一个 LLM coding leaderboard:

● https://aider.chat/docs/leaderboards/

使用多语言基准测试，要求LLM编辑源文件以完成225个来自Exercism的编程练习，这些练习涵盖了C++、Go、Java、JavaScript、Python和Rust等多种流行编程语言

via Memos

Invalid media: image

llm leaderboard

05:09 · Mar 7, 2025 · Fri

#bb #llm

groq 这个推理速度真的逆天

via Memos

Invalid media: image

bb llm

08:38 · Feb 21, 2025 · Fri

#llm #ai

DeepSeek-R1 论文详解 part 3：GPT发展史 | scaling law | 训练范式 | emergent ability

● https://www.youtube.com/watch?v=6fPvbIFF_wY

via Memos

llm ai

01:49 · Jan 25, 2025 · Sat

#llm #leaderboard

Artificial Analysis LLM Leaderboard

Artificial Analysis 的评测方法注重实际应用场景，尤其是 API 调用的性能表现，这与 LMSYS Chatbot Arena 等更注重输出质量的评测形成互补

https://artificialanalysis.ai/leaderboards/models

via Memos

llm leaderboard

01:19 · Jan 24, 2025 · Fri

#llm

Bilibili 技术: 大模型推理加速的研究与分析

加速方案的主要思路

1 - 算子层优化：

● Operator Fusion：通过将多个算子融合为一个复杂算子，减少内存访存次数，加快计算速度。
● High-Performance Acceleration Library：使用如ONNX Runtime、TVM、cuBLAS、FasterTransformer等高性能加速库，优化常见的神经网络算子的计算性能。
● Layer Fusion：在多头注意力机制中，将所有操作合并到一个计算核中，减少数据传输并提高数学密度。

2 - 算法层优化：

● Quantization Techniques：使用精度更低的单位来表示模型的权重或激活值，以节省空间和加速模型推理速度。
● Speculative Decoding：通过使用一个简洁且反应迅速的小型模型来辅助解码，提升推理速度。
● Sharding Strategy Optimization：通过模型分片将不同部分的计算任务分布到多个设备上，减少单个设备的内存压力和计算瓶颈。

3 - 框架层优化：

● Contiguous Batching：通过在推理过程中保持请求的连续批量处理，减少上下文切换和内存调度带来的开销。
● PageAttention：优化Attention机制中的KV存储，减少内存占用，提高内存访问效率。
● TensorRT-LLM和MindelIE-LLM框架：通过支持多种Attention机制和流水线并行、跨层并行等技术，提高推理的吞吐量和响应速度。

via Memos

llm

02:29 · Jan 21, 2025 · Tue

#llm #ai

感觉现在 deepseek 的程度已经可以让我不用续费 gpt、claude 和 perplexity 了，搜索和 r1 目前都做的已经很好了。

下个月计划就只留下一个 Claude 用来查漏补缺了。

via Memos

llm ai

01:29 · Jan 17, 2025 · Fri

#mark #ai #llm

MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。

● https://huggingface.co/spaces/mteb/leaderboard

via Memos

mark ai llm