新京报客户端

好新闻 无止境

立即打开
豆包提出全新稀疏架构 降低推理成本
新京报 编辑 韦博雅
2025-02-12 14:42

新京报贝壳财经讯 2月12日,据“豆包大模型团队”微信公众号,近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。


编辑 韦博雅

相关推荐
创大模型价格新低!DeepSeek API输入缓存降至首发价十分之一
新京号
豆包为什么要急着“收割”用户?
新京号
“大模型提前查到考编成绩”,是“乌龙”也是提醒 |新京报快评
观点
DeepSeek增资!梁文锋持股比例由1%飙至34%
新京号
弃补贴、推付费、谋盈利:互联网行业商业化大提速
科技
国产化与Agent成云厂商新战事,商业化落地仍待破局
科技
“90后”的他半月内两上《新闻联播》,现在又交新作业
科技
全国一等奖!破解AI算力问题的北大教授
新京号
打通千问 阿里打响AI购物入口争夺战
新京号
小词元撬动智能经济大市场
新京号

新京报报料邮箱:82708677@bjnews.com.cn