DeepSeek 开源周第一天 ,降本大法公开——
FlashMLA,直接突破 H800 计算上限。
MLA ,正是 DeepSeek 提出的创新注意力架构。从 V2 开始,MLA 使得 DeepSeek 在系列模型中实现成本大幅降低,但是计算、推理性能仍能与顶尖模型持平。
按照官方介绍来说 ,FlashMLA 使用之后,H800 可以达到 3000GB/s 内存,实现 580TFLOPS 计算性能。
网友们纷纷点赞:向工程团队致以崇高的敬意 ,从 Hopper 的张量核中挤出了每一个 FLOP 。这就是我们将 LLM 服务推向新前沿的方式!
目前 GitHub 页面已经更新。短短一小时,Star 星数已经超过 1.2k 。
支持 BF16;
分页 KV 缓存,块大小为 64
快速启动:
Hopper GPU
CUDA 12.3 及以上版本
PyTorch 2.0 及以上版本
在项目的最后 ,它还表示,这是受到了FlashAttention 2&3和英伟达 CUTLASS 项目的启发。
核心作者是 Tri Dao,普林斯顿大牛,Together AI 的首席科学家。
而英伟达 CUTLASS 是 CUDA C++ 模板抽象的集合 ,用于在 CUDA 内实现高性能矩阵 - 矩阵乘法 ( GEMM ) 和所有级别和规模的相关计算 。
MLA,DeepSeek 基本架构
最后再来说说,MLA ,多头潜在注意力机制,DeepSeek 系列模型的基本架构,旨在优化 Transformer 模型的推理效率与内存使用 ,同时保持模型性能。
它通过低秩联合压缩技术,将多头注意力中的键(Key)和值(Value)矩阵投影到低维潜在空间,从而显著减少键值缓存(KV Cache)的存储需求。这种方法在长序列处理中尤为重要 ,因为传统方法需要存储完整的 KV 矩阵,而 MLA 通过压缩仅保留关键信息 。
V2 版本中,这一创新性架构把显存占用降到了过去最常用的 MHA 架构的 5%-13%,实现了成本大幅降低。它的推理成本仅为 Llama 370B 的 1/7 、GPT-4 Turbo 的 1/70。
而在 V3 ,这一降本提速就更为明显,直接让 DeepSeek 吸引全球目光。
HuggingFace CEO 发文公布了这一喜讯。
GitHub 链接:
https://github.com/deepseek-ai/FlashMLA
参考链接:
https://x.com/deepseek_ai/status/1893836827574030466