新京报客户端

好新闻 无止境

立即打开
解决传统架构记忆瓶颈 MiniMax发布新一代模型
新京报 记者 罗亦丹 编辑 岳彩周
2025-01-15 23:19

新京报贝壳财经讯(记者罗亦丹)1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。


未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。


技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。


值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”


编辑 岳彩周

校对 穆祥桐

来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关推荐
从“造车”到“造生态”,东风汽车引领汽车行业智能化变革
商讯
大厂暗战人形机器人:阿里百度构建生态 腾讯美团突入研发深水区
科技
搭积木、包快递 国创中心高管详解“一脑多能”平台“慧思开物”
科技
人民日报 | 高文:抢抓人工智能发展的历史性机遇——深刻领会习近平总书记关于人工智能的重要论述
新京号
当AI遇上两会
新京号
马斯克向左 梁文锋向右
科技
两会院士说|袁亮:智能化、无人化是煤矿深部开采发展方向
时事
外资机构看DeepSeek:提振中国股市 机会藏在这些领域
财经
生成式人工智能赋能基础教育高质量发展论坛在北京市广渠门中学召开
新京号
一周碳要闻:人工智能有望突破高排放瓶颈(碳报第133期)
财经

新京报报料邮箱:67106710@bjnews.com.cn