冷门知识:新奥彩资料免费最新版下载安装-梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么

hmseo123 教育 2025-02-19 1 0

2月18日 ,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列 ,并2月16日提交到预印本平台arxiv 。

这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要 ,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时 ,为提高模型能力提供新的方向,实现将算法创新与硬件对齐的优化相结合,进行高效的长上下文建模 。

DeepSeek在论文中介绍 ,NSA采用动态分层稀疏策略,将粗粒度标记压缩与细粒度标记选择相结合,以保持全局上下文感知和局部精度。通过两项关键创新推进稀疏注意力设计:第一 ,通过算术强度平衡算法设计实现了显着的加速,并针对现代硬件进行了实现优化。第二,支持端到端训练 ,在不牺牲模型性能的情况下减少预训练计算 。

实验表明,使用 NSA 预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过了全注意力模型 。同时,NSA在64k长度序列的解码 、前向传播和后向传播过程中实现比全注意力机制显著的加速 ,验证其在整个模型生命周期中的效率。

“此次DeepSeek发布的论文,可以称为基石更新。”业内人士向澎湃新闻记者评论,此前的DeepSeek-R1的瓶颈在于输入上下文能力方面相对不足 ,此次更新正是解决了原先大模型文字处理的问题 。从内容来看 ,NSA主要针对长上下文高速训练,在长上下文情况下,相比原先的结构有更慢的性能衰减 ,这导致长思维链的 COT 效果会更好,对于复杂数学推导非常有价值。

据业内人士分析,DeepSeek此次是剑指大模型最核心的注意力机制。Transformer架构是现有大部分大模型繁荣的基础 ,但其核心算法注意力机制存在先天问题:为了理解和生成,会阅读文本里的每个词,并拿它与其他所有词作比较 ,导致处理文本越长,技术就会越卡,甚至崩溃 。

通过NSA新架构 ,和Transformer原先传统的注意力机制相比,准确率相同或更高,处理64k标记序列时速度可提高至11.6倍 ,且训练更高效 ,所需算力更少。

值得注意的是,此次论文作者中,梁文锋在作者排名中位列倒数第二。而第一作者是袁景阳(Jingyang Yuan) 。据公开信息 ,袁景阳目前是北京大学硕士研究生,研究领域包括LLM和AI for Science,目前是DeepSeek的实习生 ,据袁景阳个人主页,他在去年参与7篇论文的撰写。

此前,在发布Grok 3同时 ,马斯克透露,Grok 3的计算能力是Grok 2的10倍以上,训练过程累计消耗20万张英伟达GPU。而梁文锋的训练思路似乎与马斯克截然相反 ,更关注如何在更少算力消耗下,达到更好的计算效果 。

有趣的是,对于马斯克坚持大力出奇迹的思路 ,另一家国内大模型独角兽“月之暗面 ”几乎在同时提出挑战。

2月18日 ,就在DeepSeek论文发布当天,月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS(直译为“MoBA:面向长上下文大语言模型的块注意力混合方法”)》,提出了与NSA类似的稀疏注意力框架MoBA ,并设计了一套可以自由切换全注意力和稀疏注意力机制的方式,为已有的全注意力模型更多的适配空间。

据介绍,MoBA是“一种将混合专家(MoE)原理应用于注意力机制的创新方法” ,旨在提高长文本处理效率 。经过Kimi平台验证,MoBA架构能将处理1M长文本的速度提升6.5倍,将处理10M长文本的速度提升16倍 。

MoBA提升效率的关键手段在于仅关注部分键值。Kimi团队把完整的上下文划分成“块(block) ”、让每个查询token自动关注最相关的KV(键值)块 ,从而实现长序列数据的高效处理,并提出一种新的top-k门控机制,无需额外训练参数 ,为每个查询token挑选出最相关的“块”,保证模型的注意力聚焦在包含最有用信息的“块”上。

Kimi团队表示,开展这项研究的原因在于 ,在传统注意力机制中 ,计算复杂度随着序列长度的增加而呈平方级增长,阻碍了模型对长序列的高效处理 。MoBA架构能够轻松融入现有模型,不需要高昂的训练成本 ,并实现与全注意力模式的无缝切换。

国产AI竞赛正在日益加剧中。1月20日,中国AI初创公司深度求索(DeepSeek)推出大模型DeepSeek-R1 。作为一款开源模型,R1在数学、代码 、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版 ,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。春节假期后,国内多个行业龙头公司均宣布接入DeepSeek。

2月8日 ,QuestMobile数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后在2月1日突破3000万大关 ,成为史上最快达成这一里程碑的应用 。

DeepSeek的爆发正在重塑中国大模型行业,从过去的“烧钱换估值 ”转向关注技术性价比与商业化闭环。在这个日新月异的赛道,由DeepSeek引领的开源已成为大模型整体潮流 ,2月18日 ,阶跃星辰和吉利汽车联合宣布,将双方合作的阶跃两款Step系列多模态大模型向全球开发者开源。其中,包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V ,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio 。

「活动」注册就送新人大礼包

84.29MB
版本V9.84.14
下载开码资料大全免费下载软件安卓版本安装你想要的应用 更方便 更快捷 发现更多
喜欢 18%好评(87人)
评论 40
0 1 2 3 4
详细信息
  • 软件大小: 81.23MB
  • 最后更新: 2024-09-16 18:34:53
  • 最新版本: V8.28.17
  • 文件格式: apk
  • 应用分类:ios-Android 新澳今天最新资料99588期开奖号码
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.41以上
应用介绍
一,神算子正版综合资料,澳门六盒宝典2023免费资料特色
二,2024法考资料全套,香港体彩154期资料汇总表格
三,收集各类澳门彩资料的网站是哪个平台的网址,4887铁算最新资料
四,最精准的正版资料网站大全下载软件,澳门赛马会第125期资料介绍大全视频下载免费
五,资料下载网,香港资料免费长期公开2024年1月1日开始实行什么政策
六,澳门最准的资料免费大全酷知网,关于澳门的资料简介怎么写好看又简单又漂亮
七,新澳今天最新资料晚上出冷汗2888,二四六天天彩资料玄机小说

【联系我们】
客服热线:139-8888-666
加载更多
版本更新
V1.22.17
奥彩资料大全一,澳门四不像最准的资料

猜你喜欢

包含 饿了么 的应用集
评论
  • 4天前
    2024免费资料精准一码494
  • 资料免费网站 7天前
    六开彩资料2015年最新开奖结果直播下载
  • 四不像论坛资料下载 7天前
    华人查经资料大全简体下载
  • 资料查询app名称大全免费下载苹果 6天前
    六6合社区资料909
  • 香港最准的公开资料是什么软件啊图片大全集下载 2天前
    刘伯温的精准资料介绍大全
  • 千里马免费资料 4天前
    澳门彩资料查询2023年第三期开奖结果
  • 新澳六叔最新资料316期开奖结果 5天前
    二四六好彩天天免费资料百科
  • 2016查经资料大全下载 4天前
    资料网站大全图片
  • 二四六论坛资料大全 4天前
    澳彩网站准确资料查询大全下载手机版
  • 惠泽社群正版资料四肖 9天前
    关于澳门的资料30字左右英文翻译怎么写