新京报客户端

好新闻 无止境

立即打开
豆包提出全新稀疏架构 降低推理成本
新京报 编辑 韦博雅
2025-02-12 14:42

新京报贝壳财经讯 2月12日,据“豆包大模型团队”微信公众号,近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。


编辑 韦博雅

相关推荐
推理只有加法,精度不降反升——北大团队发布首个复数量化模型iFairy
新京号
借势 RISC-V与 AI 浪潮,元石智算打造算力新范式
企业资讯
商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁
企业资讯
“人工智能+”行动迎顶层设计,聚焦六大领域首次布局智能原生
财经
经济学范式的四次“转换”和“综合”|新京报中文学术文摘
文化
多项“黑科技”产品集体亮相 中国银联首次以独立展台参展服贸会
财经
小参数也能“硬刚”GTP 4o、Qwen !悠然无界大模型权威测评刷新SOTA
企业资讯
智能座舱“AI HMI 2025上海车展分享会”圆满结束!
企业资讯
WAIC|华院计算成功举办“认知世界智创未来”论坛,共探AI前沿趋势
企业资讯
MiniMax开源新模型M1:价格与豆包1.6持平,低于R1
科技

新京报报料邮箱:67106710@bjnews.com.cn