新京报客户端

好新闻 无止境

立即打开
豆包提出全新稀疏架构 降低推理成本
新京报 编辑 韦博雅
2025-02-12 14:42

新京报贝壳财经讯 2月12日,据“豆包大模型团队”微信公众号,近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。


编辑 韦博雅

相关推荐
火山引擎发布深度思考模型豆包1.5
科技
东风汽车“天元智能”发布,助力汽车产业智能化高质量发展  
汽车
电池“不起火”成行业共识,上汽通用五菱回应新国标重塑电池安全
汽车
豆包大模型1.5Pro版面世:用户端已开始灰测,开发者可调用
科技
算法的尺度:人机共舞的世界,如何找到和谐共生的法则?
文化
手握玉泽、六神两面大旗,上海家化2025年有望重新起跳
商讯
马斯克向左 梁文锋向右
科技
厂商集体“AI造游戏”:噱头还是“钱景”
科技
两会民企谈|京东曹鹏:建议统一调度多元算力资源打破壁垒
科技
两会民企谈|全国人大代表何小鹏:坚持技术创新是一种长期主义
汽车

新京报报料邮箱:67106710@bjnews.com.cn