新京报客户端

好新闻 无止境

立即打开
DeepSeek发布开源周首个成果 可优化英伟达GPU效率
新京报 记者 罗亦丹 编辑 王琳琳
2025-02-24 14:44

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。


据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。


上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


编辑 王琳琳

校对 刘军

来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关推荐
MiniMax开源新模型M1:价格与豆包1.6持平,低于R1
科技
两项重要创新成果亮相!
新京号
这场对话藏着万亿市场(全文)!黄仁勋与王坚预言物理AI浪潮
科技
北京人工智能产业创新发展人才论坛举办,发布多项新成果、新举措
北京
权威发布|我市召开“抓改革创新促高质量发展”主题系列新闻发布会第八场
新京号
AI浪潮录丨人工智能为什么是年轻人的事业?专访95后师天麾
科技
北京引领数字经济迈向数智经济
北京
AI浪潮录丨王晟:谋求窗口期,AI初创公司不要跟巨头抢地盘
科技
智源研究院发布“悟界”系列大模型,推动AI迈向物理世界
北京
AI赋能科学研究,北京发布全国首个科学智能专项地方政策
北京

新京报报料邮箱:67106710@bjnews.com.cn