新京报客户端

好新闻 无止境

立即打开
豆包提出全新稀疏架构 降低推理成本
新京报 编辑 韦博雅
2025-02-12 14:42

新京报贝壳财经讯 2月12日,据“豆包大模型团队”微信公众号,近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。


编辑 韦博雅

相关推荐
MiniMax开源新模型M1:价格与豆包1.6持平,低于R1
科技
专访朱嘉明:大模型快速高质发展,未来两三年或迈向2.0时代
财经
黑土地开鲜花,昇腾算力炼出准万亿领先大模型
科技
一周碳要闻:AI耗电引发碳信用狂欢(碳报第153期)
财经
火山引擎发布深度思考模型豆包1.5
科技
从智能体到具身智能平台,华为“不造机器人”的AI野望
科技
东风汽车“天元智能”发布,助力汽车产业智能化高质量发展  
汽车
手握玉泽、六神两面大旗,上海家化2025年有望重新起跳
商讯
电池“不起火”成行业共识,上汽通用五菱回应新国标重塑电池安全
汽车
北京亮出去年生态环境保护成绩单,下一步怎么干?
北京

新京报报料邮箱:67106710@bjnews.com.cn