新京报客户端

好新闻 无止境

立即打开
DeepSeek发布开源周首个成果 可优化英伟达GPU效率
新京报 记者 罗亦丹 编辑 王琳琳
2025-02-24 14:44

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。


据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。


上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


编辑 王琳琳

校对 刘军

来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关推荐
AI浪潮录丨对话刘知远:通往AGI不易,长跑要顶住资本寒冬
科技
英伟达营收创新高 黄仁勋盛赞DeepSeek极力打消市场忧虑
科技
DeepSeek开源周第三日 发布高性能通用矩阵乘法库
科技
马斯克向左 梁文锋向右
科技
DeepSeek公开利润引服务商互怼 AI基建如何降本
科技
DeepSeek“开源周”第二天开源EP通信库
科技
智谱三大类模型开源,北京如何布局“开源之都”
科技
新闻8点见丨中俄元首通电话;2025年研考国家线公布
时事
“咖啡机器人”亮相中关村论坛的幕后:现制饮品的深度智能化
消费
怀柔科学中心发布8项重大突破性成果
北京

新京报报料邮箱:67106710@bjnews.com.cn