新京报客户端

好新闻 无止境

立即打开
豆包提出全新稀疏架构 降低推理成本
新京报 编辑 韦博雅
2025-02-12 14:42

新京报贝壳财经讯 2月12日,据“豆包大模型团队”微信公众号,近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。


编辑 韦博雅

相关推荐
豆包大模型2.0发布 彰显多模态AI技术优势
新京号
字节发布Seedance 2.0,豆包、即梦官宣接入
新京号
比拼转向场景落地 AI大模型竞争格局重塑
新京号
黄仁勋:英伟达旗舰算力芯片2027年或带来1万亿美元营收
新京号
智能计算新范式将无线通信融入神经网络
新京号
黄仁勋回应AI焦虑,详谈万亿算力订单与对华供货进展
新京号
英伟达四季度营收再创新高,黄仁勋定调“算力即收入”
新京号
雷诺集团2030年将推36款新车,中期利润率目标5%-7%
汽车
地瓜机器人完成1.2亿美元B1轮融资,加速打造具身智能原生技术底座
新京号
从写代码到做工程,北京AI用硬核技术改写全球AI竞赛规则
科技

新京报报料邮箱:82708677@bjnews.com.cn