https://t.me/s/moreality🌐 一些本人的碎碎念,汇聚了几个主要的日常分享渠道📝 内容包括但不限于:🏃 日常生活,👨💻 工具分享,📖 书影音,体育赛事(⚽️曼城球迷)💡 所有内容均为在曾经某一时刻的观点。
#prompt #llm #AI
Google prompt engineering (谷歌官方「Prompt Engineering」白皮书,一共 68页)
● 翻译: https://baoyu.io/blog/google-prompt-engineering-whitepaper
via Memos
Invalid media: file
Google prompt engineering (谷歌官方「Prompt Engineering」白皮书,一共 68页)
● 翻译: https://baoyu.io/blog/google-prompt-engineering-whitepaper
via Memos
Invalid media: file
#llm #leaderboard
一个 LLM coding leaderboard:
● https://aider.chat/docs/leaderboards/
via Memos
Invalid media: image
一个 LLM coding leaderboard:
● https://aider.chat/docs/leaderboards/
使用多语言基准测试,要求LLM编辑源文件以完成225个来自Exercism的编程练习,这些练习涵盖了C++、Go、Java、JavaScript、Python和Rust等多种流行编程语言
via Memos
Invalid media: image
#llm #ai
DeepSeek-R1 论文详解 part 3:GPT发展史 | scaling law | 训练范式 | emergent ability
● https://www.youtube.com/watch?v=6fPvbIFF_wY
via Memos
DeepSeek-R1 论文详解 part 3:GPT发展史 | scaling law | 训练范式 | emergent ability
● https://www.youtube.com/watch?v=6fPvbIFF_wY
via Memos
#llm #leaderboard
● 比较 LLM API 性能: https://artificialanalysis.ai/leaderboards/models
● 另一个比较 LLM price 的: https://countless.dev/
via Memos
● 比较 LLM API 性能: https://artificialanalysis.ai/leaderboards/models
● 另一个比较 LLM price 的: https://countless.dev/
via Memos
#llm
Bilibili 技术: 大模型推理加速的研究与分析
加速方案的主要思路
1 - 算子层优化:
● Operator Fusion:通过将多个算子融合为一个复杂算子,减少内存访存次数,加快计算速度。
● High-Performance Acceleration Library:使用如ONNX Runtime、TVM、cuBLAS、FasterTransformer等高性能加速库,优化常见的神经网络算子的计算性能。
● Layer Fusion:在多头注意力机制中,将所有操作合并到一个计算核中,减少数据传输并提高数学密度。
2 - 算法层优化:
● Quantization Techniques:使用精度更低的单位来表示模型的权重或激活值,以节省空间和加速模型推理速度。
● Speculative Decoding:通过使用一个简洁且反应迅速的小型模型来辅助解码,提升推理速度。
● Sharding Strategy Optimization:通过模型分片将不同部分的计算任务分布到多个设备上,减少单个设备的内存压力和计算瓶颈。
3 - 框架层优化:
● Contiguous Batching:通过在推理过程中保持请求的连续批量处理,减少上下文切换和内存调度带来的开销。
● PageAttention:优化Attention机制中的KV存储,减少内存占用,提高内存访问效率。
● TensorRT-LLM和MindelIE-LLM框架:通过支持多种Attention机制和流水线并行、跨层并行等技术,提高推理的吞吐量和响应速度。
via Memos
Bilibili 技术: 大模型推理加速的研究与分析
加速方案的主要思路
1 - 算子层优化:
● Operator Fusion:通过将多个算子融合为一个复杂算子,减少内存访存次数,加快计算速度。
● High-Performance Acceleration Library:使用如ONNX Runtime、TVM、cuBLAS、FasterTransformer等高性能加速库,优化常见的神经网络算子的计算性能。
● Layer Fusion:在多头注意力机制中,将所有操作合并到一个计算核中,减少数据传输并提高数学密度。
2 - 算法层优化:
● Quantization Techniques:使用精度更低的单位来表示模型的权重或激活值,以节省空间和加速模型推理速度。
● Speculative Decoding:通过使用一个简洁且反应迅速的小型模型来辅助解码,提升推理速度。
● Sharding Strategy Optimization:通过模型分片将不同部分的计算任务分布到多个设备上,减少单个设备的内存压力和计算瓶颈。
3 - 框架层优化:
● Contiguous Batching:通过在推理过程中保持请求的连续批量处理,减少上下文切换和内存调度带来的开销。
● PageAttention:优化Attention机制中的KV存储,减少内存占用,提高内存访问效率。
● TensorRT-LLM和MindelIE-LLM框架:通过支持多种Attention机制和流水线并行、跨层并行等技术,提高推理的吞吐量和响应速度。
via Memos
#mark #ai #llm #leaderboard
MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。
● https://huggingface.co/spaces/mteb/leaderboard
via Memos
MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。
● https://huggingface.co/spaces/mteb/leaderboard
via Memos
#llm #cache
关于 LLM API 的 cache hit (缓存命中)
● deepseek 的解释(比较详细): https://api-docs.deepseek.com/zh-cn/guides/kv_cache
● 一篇知乎文章: LLM Best Practice:Prompt caching
via Memos
关于 LLM API 的 cache hit (缓存命中)
● deepseek 的解释(比较详细): https://api-docs.deepseek.com/zh-cn/guides/kv_cache
● 一篇知乎文章: LLM Best Practice:Prompt caching
via Memos
#llm #gpt #claude #gemini
google 的 gemini 居然登顶了..
看来下周要体验一下了.
而且 free plan 居然这么有诚意
● 使用 & 介绍: https://aistudio.google.com/app/plan_information
● 更新日志: https://ai.google.dev/gemini-api/docs/changelog?hl=zh-cn
memos/gCMhr54XZ7T79zoAemRzry
via Memos
google 的 gemini 居然登顶了..
看来下周要体验一下了.
而且 free plan 居然这么有诚意
● 使用 & 介绍: https://aistudio.google.com/app/plan_information
● 更新日志: https://ai.google.dev/gemini-api/docs/changelog?hl=zh-cn
memos/gCMhr54XZ7T79zoAemRzry
via Memos
#llm #leaderboard
一个 LLM coding leaderboard:
● https://aider.chat/docs/leaderboards/
via Memos
Invalid media: image
一个 LLM coding leaderboard:
● https://aider.chat/docs/leaderboards/
使用多语言基准测试,要求LLM编辑源文件以完成225个来自Exercism的编程练习,这些练习涵盖了C++、Go、Java、JavaScript、Python和Rust等多种流行编程语言
via Memos
Invalid media: image
#llm #ai
DeepSeek-R1 论文详解 part 3:GPT发展史 | scaling law | 训练范式 | emergent ability
● https://www.youtube.com/watch?v=6fPvbIFF_wY
via Memos
DeepSeek-R1 论文详解 part 3:GPT发展史 | scaling law | 训练范式 | emergent ability
● https://www.youtube.com/watch?v=6fPvbIFF_wY
via Memos
#llm #leaderboard
Artificial Analysis LLM Leaderboard
Artificial Analysis 的评测方法注重实际应用场景,尤其是 API 调用的性能表现,这与 LMSYS Chatbot Arena 等更注重输出质量的评测形成互补
https://artificialanalysis.ai/leaderboards/models
via Memos
Artificial Analysis LLM Leaderboard
Artificial Analysis 的评测方法注重实际应用场景,尤其是 API 调用的性能表现,这与 LMSYS Chatbot Arena 等更注重输出质量的评测形成互补
https://artificialanalysis.ai/leaderboards/models
via Memos
#llm
Bilibili 技术: 大模型推理加速的研究与分析
加速方案的主要思路
1 - 算子层优化:
● Operator Fusion:通过将多个算子融合为一个复杂算子,减少内存访存次数,加快计算速度。
● High-Performance Acceleration Library:使用如ONNX Runtime、TVM、cuBLAS、FasterTransformer等高性能加速库,优化常见的神经网络算子的计算性能。
● Layer Fusion:在多头注意力机制中,将所有操作合并到一个计算核中,减少数据传输并提高数学密度。
2 - 算法层优化:
● Quantization Techniques:使用精度更低的单位来表示模型的权重或激活值,以节省空间和加速模型推理速度。
● Speculative Decoding:通过使用一个简洁且反应迅速的小型模型来辅助解码,提升推理速度。
● Sharding Strategy Optimization:通过模型分片将不同部分的计算任务分布到多个设备上,减少单个设备的内存压力和计算瓶颈。
3 - 框架层优化:
● Contiguous Batching:通过在推理过程中保持请求的连续批量处理,减少上下文切换和内存调度带来的开销。
● PageAttention:优化Attention机制中的KV存储,减少内存占用,提高内存访问效率。
● TensorRT-LLM和MindelIE-LLM框架:通过支持多种Attention机制和流水线并行、跨层并行等技术,提高推理的吞吐量和响应速度。
via Memos
Bilibili 技术: 大模型推理加速的研究与分析
加速方案的主要思路
1 - 算子层优化:
● Operator Fusion:通过将多个算子融合为一个复杂算子,减少内存访存次数,加快计算速度。
● High-Performance Acceleration Library:使用如ONNX Runtime、TVM、cuBLAS、FasterTransformer等高性能加速库,优化常见的神经网络算子的计算性能。
● Layer Fusion:在多头注意力机制中,将所有操作合并到一个计算核中,减少数据传输并提高数学密度。
2 - 算法层优化:
● Quantization Techniques:使用精度更低的单位来表示模型的权重或激活值,以节省空间和加速模型推理速度。
● Speculative Decoding:通过使用一个简洁且反应迅速的小型模型来辅助解码,提升推理速度。
● Sharding Strategy Optimization:通过模型分片将不同部分的计算任务分布到多个设备上,减少单个设备的内存压力和计算瓶颈。
3 - 框架层优化:
● Contiguous Batching:通过在推理过程中保持请求的连续批量处理,减少上下文切换和内存调度带来的开销。
● PageAttention:优化Attention机制中的KV存储,减少内存占用,提高内存访问效率。
● TensorRT-LLM和MindelIE-LLM框架:通过支持多种Attention机制和流水线并行、跨层并行等技术,提高推理的吞吐量和响应速度。
via Memos
#mark #ai #llm
MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。
● https://huggingface.co/spaces/mteb/leaderboard
via Memos
MTEB 是一个用于评估文本嵌入(Text Embedding)模型性能的基准测试集。这个榜单展示了不同模型在文本嵌入任务上的表现。
● https://huggingface.co/spaces/mteb/leaderboard
via Memos