新京报客户端

好新闻 无止境

立即打开
DeepSeek发布开源周首个成果 可优化英伟达GPU效率
新京报 记者 罗亦丹 编辑 王琳琳
2025-02-24 14:44

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。


据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。


上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


编辑 王琳琳

校对 刘军

来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关推荐
黄仁勋:英伟达旗舰算力芯片2027年或带来1万亿美元营收
新京号
老黄:别叫我卖芯片的,其实我是一个“超级包工头”
新京号
多方加速打造智能经济新形态
新京号
北京“创新医药32条”:突出原始创新,打通手术机器人入院堵点
北京
全国首个!AI新药研发知产保护指引落地北京海淀
新京号
这里有怀柔!面向四大领域,多项成果集中发布
新京号
探索“第一且唯一”,北大杨仝团队6次获华为奖
新京号
创新的中关村,见证科技革命的“奇点时刻”
新京号
这波“养虾潮”还能热多久?
新京号
科技聚势 智启新程——国信证券金融科技“十四五”答卷
商讯

新京报报料邮箱:82708677@bjnews.com.cn