冷门知识:澳门赛马会第141期资料查询大全最新版下载-回顾DeepSeek“开源周”:越是开源,越能扩大生态

hmseo123 八卦 2025-02-28 1 0

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

2月最后一天 ,DeepSeek开源周正式收官。连续五天 ,这家公司刷新自己在大模型开源生态中的技术地位 。

五天一共对应五个开源代码库,分别是FlashMLA,DeepEP ,DeepGEMM,DualPipe和EPLB对应的优化并行策略,以及推进器3FS和轻量化数据处理工具Smallpond 。在Github ,这些项目累计获得星星数量接近2.8万颗。

首日的FlashMLA最为重磅。DeepSeek对其核心介绍是,这是一款面向Hopper GPU(英伟达第九代GPU架构)的高效MLA解码内核(MLA decoding kernel ),并针对可变长度序列的服务场景进行了优化 。 

MLA——Multi-Head Latent Attention(多头潜在注意力机制)是DeepSeek在V2时期的重要创新 ,也是降本的关键。FlashMLA则是针对MLA在解码阶段的注意力加速器。

用户输入的自然语言数据序列往往长短不一,如果只按照传统注意力机制会造成算力资源浪费 。FlashMLA可以针对不同token长度动态调配计算资源。总体上来说,这还是DeepSeek就H800持续压榨其硬件性能利用效率——这也是DeepSeek素来最擅长的能力之一。 

次日的DeepEP核心目的仍在于拉升GPU效能 。这是一个专为专家混合(MoE)和专家并行(EP)量身定制的通信库。 

简单而言 ,它通过建立一个全对全的中间系统,高效协同专家模型之间的通信,实现高吞吐量和低延迟的兼顾 ,并且支持FP8等低精度操作以降低计算资源消耗 ,最终大幅提升了大模型的训练和推理效率。 

第三天的DeepGEMM来自DeepSeek-V3,是一个可用于FP8精度的通用矩阵乘法(GEMM)加速库 。

通用矩阵乘法是大模型提高训练效率的重要一环,但往往还是会造成巨大的计算量。DeepGEMM的目的是在降低消耗 、提升速度的同时 ,还能保持计算的准确度。它先是利用FP8这一低精度但快速的方式完成计算,再利用英伟达的CUDA核心对其进行精加工 。

事实上,英伟达基于CUDA架构打造的CUTLASS也是用于加速这类计算 ,但更适用于通用且强性能的矩阵加速库 。而DeepGEMM不仅在性能上可以与专家调优的库相当,而且更加轻量化,仅用300行代码就实现 ,且安装时无需编译,通过轻量级JIT模块就可在运行时编译所有内核。

第四天是由DualPipe和EPLB构成的优化并行策略。

DualPipe是一种双向并行算法,简单而言 ,它以“双向”的调度方式,在参数翻倍的情况下,大幅减少了流水线并行过程中 ,因为不同“工序 ”进程快慢而产生浪费效率的“气泡 ” ,也就是计算和通信阶段的等待时间 。 

EPLB是一种“专家并行负载均衡器”,可对MoE架构中的高负载专家复制为“冗余专家”,以分担同类任务计算量 ,并利用“启发式分配算法 ”,将高负载专家分配到低负载显卡上,以优化GPU之间的负载均衡。它还会尽量将需要高度协同的专家放置在同一节点上 ,以提高通信效率。

最后一天是3FS(Fire-Flyer File System)以及数据处理框架Smallpond 。

3FS是一个可实现高速数据访问,提高AI模型训练和推理效率的分布式文件系统。它相当于利用SSD(用于数据存储与加载 、实现快速数据交换等)以及RDMA(支持分布式训练通信和高性能网络架构等)建立一个共享存储层,使模型对于资源调取和数据传输 ,都更为极速、自动化且高吞吐。

在此基础上,Smallpond可以进一步优化3FS的数据管理能力,能够处理PB级别(1PB 数据量大约可以存储20万部5GB大小的高清电影)的数据 。

需要指出的是 ,DeepSeek开源周的所有内容,几乎都是“开箱即用”,团队均提供了相对完整细致的操作指南。

一名AI大模型行业人士对界面新闻记者表示 ,这五项开源内容的重要意义相当 ,都是针对训练效率的优化细节。不过他指出,DeepEP可能相对突出,因为对MoE的提升尤为明显 。

另一名关注大模型行业技术进展的投资人同样表示 ,这些内容均可以视为DeepSeek在AI Infra层的优异表现。 

他认为,针对AI Infra的优化措施其实存在于任何一家AI大模型公司,而DeepSeek之所以选择开源 ,除了可以诉诸其技术理想外,一个核心目的还是在于让业界能够更好部署和使用其开源模型,建立其更大的开源生态。“从战略上来说 ,这也是一个很明确的先后步骤 。” 

此外,对于DeepSeek开源周的动作,还有一种讨论声音是它看起来与英伟达的硬件生态绑定更深了 。

但前述受访者认为这是一条合理路径。他指出 ,如果是针对国产硬件生态,DeepSeek还可以另起一套代码库来适配,两者不是非此即彼的关系。与此同时 ,当DeepSeek具备的是面向全球大模型的生态视野 ,针对英伟达GPU展示优化能力也是一种必要动作 。

事实上,在DeepSeek选择开源这一周,海内外大模型发布动作频繁且热闹 ,其中包括腾讯新一代快思考模型混元Turbo S,阿里通义千问推理模型QwQ-Max预览版,以及Anthropic的Claude 3.7 Sonnet ,和OpenAI万众瞩目的GPT-4.5。 

出人意料的是,GPT-4.5并未激起巨大水花,甚至落下一众令人失望的评价。除了各方面基准测试超过4o ,并在准确度和幻觉率上有了明显优化,GPT-4.5没有像从前新模型发布那样让人“震撼 ”的表现 。

唯一的震撼或许在于定价。GPT-4.5每百万tokens输入为75美元,输出为150美元 ,价格分别达到了DeepSeek-V3的280倍及150倍。

OpenAI CEO Sam Altman在X平台上表示,GPT-4.5将是其最后一个非链式思维模型,未来发布的GPT-5将是一个包含o3在内的多种技术混合模型 。这俨然让GPT-4.5的存在感降到更低。

回到DeepSeek的开源动作上 ,到目前为止 ,这家公司在绝大多数的算法和工程细节上都毫无保留。但它仍然将一些难以复制的核心能力牢牢掌握在自己手上,例如对于模型训练深层次的know how,以及训练数据方面的细节 ,这是达成DeepSeek式创新的核心秘密所在 。

「活动」注册就送新人大礼包

84.29MB
版本V9.84.14
下载管家婆2021资料免费安装你想要的应用 更方便 更快捷 发现更多
喜欢 18%好评(87人)
评论 40
0 1 2 3 4
详细信息
应用介绍
一,正版资料大全2019网址是什么呢视频播放器,下载什么软件可以写资料
二,查看澳门开奖资料的网站有哪些软件免费,精准生肖资料网下载安装
三,正版资料精选网站有哪些平台可以用手机打开的,查看澳门资料高手是谁
四,香港介绍资料及历史事件视频大全集最新,百万文字论坛综合资料最新版本更新内容
五,红姐期期最准资料,查看澳门开奖资料的网站是什么软件呀
六,六盒宝典资料大全香,澳门最好的资料两期平特
七,十二生肖猪的资料,打开香港免费资料大全电

【联系我们】
客服热线:139-8888-666
加载更多
版本更新
V1.22.17
关于香港的简介资料有哪些英文版图片,如何查询香港公司资料信息查询结果电话

猜你喜欢

包含 饿了么 的应用集
评论
  • 4天前
    刘伯温的精准资料大全介绍图片视频讲解
  • 管家婆一码一肖资料大全2023 7天前
    一码三中三资料中奖
  • 正版资料查询最新版特色 7天前
    澳门马会传真资料公开羊肠九曲打_生当
  • 玄机网全年资料查询最新 6天前
    正版资料免费大全2020最新版本图片下载安装软件苹果
  • 香港内部精准资料 官方平台官网下载 2天前
    澳门资料软件下载官网网址是多少啊安全吗是真的吗
  • 有关于澳门的资料有哪些图片大全高清 4天前
    澳码精准资料天天免费2024
  • 十二生肖论坛资料大全 5天前
    香港体彩154期资料查询大全最新消息表
  • 正版资料精选网站有哪些平台可以用手机下载的 4天前
    49图库图资料大全图片2022
  • 澳门正版资料大全金牛版 4天前
    最精准的正版资料书籍有哪些呢图片视频下载软件
  • 澳门153期开奖资料查询表图片及价格表 9天前
    香港小马哥资料网站下载大全免费观看