智源研究院院长王仲远：多模态大模型尚未实现高度普适化

新京报记者张璐编辑刘梦婕

2025-06-07 08:49

未来，多模态大模型将加入3D信号、时空信号等数据。

2025北京智源大会6月6日开幕，智源研究院院长王仲远就多模态大模型、具身智能等热点问题接受媒体采访。他表示，多模态大模型已在特定场景启动落地，但尚未实现高度普适化。智源多模态大模型是为了推动AI从数字世界走向物理世界，未来除了视频、文字、语音、脑信号数据等，多模态大模型还将加入3D信号、时空信号等数据进行融合。

从繁杂的模态数据中筛选最有效信息亟待突破

王仲远表示，互联网文本数据基本已经被使用完毕，大语言模型性能提升已相对缓慢。现实世界中存在大量多模态数据，比如流程图、CT数据和各行业的传感器数据等，可以突破大语言模型的瓶颈。

开幕式上，智源研究院推出“悟界”系列大模型，其中，Emu3作为原生多模态统一架构，让大模型具备理解和推理世界的能力。

如何理解原生多模态大模型的“原生”概念？王仲远说，当前多模态大模型的学习路径，尤其是多模态理解模型，通常是先将语言模型训练到很强的程度，随后再学习其他模态信息，如同先达到博士学位水平，再去接触其他知识。在此过程中，模型的能力可能会出现下降，从“博士”水平降至“大学”甚至“高中”水平。

但人类的学习路径不是这样的，小朋友从出生就开始听到世界的声音，跟各种物品、图像交互学习，父母通过声音教他。所谓的“原生”正是如此，是指在模型训练初始阶段，就将文字、图像、声音乃至脑信号等各种模态数据都纳入其中进行训练。随着模态种类不断增加，如何从繁杂的模态数据中筛选出最有效的信息，成为亟待突破的技术难题。目前，不仅智源研究院，行业内众多机构都在积极探索原生多模态技术。

此外，也有专家学者猜测，国际上近期发布的产品背后或许已运用原生多模态技术，不过这些产品对技术细节的披露愈发稀少。从行业专家及学术层面来看，原生多模态是值得深入探索的技术路线，它与企业多模态技术路线存在差异。企业多模态技术是先强化语言模型，再添加多模态，更便于实现产业落地。

在产业界，多模态大模型依然在做图像生成、视频生成，这些在设计、广告、电商领域有很好的落地，可以极大提升生产效率。王仲远介绍，多模态大模型已在特定场景启动落地，但尚未实现高度普适化。在实际场景中，多模态需求不可回避。例如，英语教学需融合声音、图像与场景理解，但当前多模态大模型能力仍显著弱于语言模型，导致产品效果不及预期。尽管产业界尝试通过“打补丁”的方式优化体验，但根本性突破仍依赖更强大的基础模型。

未来多模态模型将加入3D信号、时空信号等

“智源多模态大模型是为了推动AI从数字世界走向物理世界。”王仲远说，具身领域的数据有更多模态，现在的模态包括视频、文字、语音、脑信号数据等，未来还可能加入3D信号、时空信号等数据。

“我们做的原生多模态世界模型的统一架构，不仅理解静态的多模态数据，还要理解空间、时间。”他举例说，现在很多多模态模型看到桌子上的咖啡杯，会描述“咖啡杯在桌上，咖啡杯是白色的，上面有一些文字”，但人类对空间上的认知会觉得“咖啡杯在桌子的边缘，很危险”。现在绝大部分多模态大模型不具备这样的判断能力。

有了空间的理解后，机器人操作时就应该从桌子边缘往里拿杯子，而不是从里往外拿杯子。“咖啡杯有可能掉下去甚至弄脏地板，这就是时空智能预测，是我们要探索的多模态世界模型的能力。”

具身智能“小组赛”还未结束，远没有到“淘汰赛”

谈及具身智能，王仲远表示，在具身智能发展过程中，智源希望能探索出独特的发展路径：首先是数字智能物理化。通过大模型技术将数字世界的推理、规划等智能能力延伸至物理世界，推动机器人从“单一功能”向“通用智能”进化。

其次是低成本功能化。聚焦垂直场景，降低单台机器人成本并强化特定能力，如家庭清洁、工业分拣，通过规模化落地积累数据，逐步拓展应用边界，让很多小型机器人也能走进千家万户。因为大型人形机器人技术复杂度高，商业化周期更长，而小型专用机器人若能在细分场景实现极致性价比，可能率先渗透家庭与产业场景，为具身智能的长期发展奠定基础。

目前，许多智能驾驶车企正在进军具身智能领域。对此，他认为，车企的核心优势体现在制造能力与产业链整合、落地场景资源两个方面。智能驾驶车企积累的交通、出行等场景数据，可能为具身智能提供初期应用场景，比如物流、服务机器人等。

但具身智能的技术复杂度远超智能驾驶，需融合感知、决策、行动等多维度能力，对算法、硬件协同要求更高，车企现有技术积累未必直接适用。另外，具身智能尚处发展早期。“小组赛”阶段，大模型机构、硬件厂商、科研团队等多方参与，不同领域玩家的技术路径仍在碰撞中，远没有到“淘汰赛”阶段，最终谁能形成突破尚未可知。“不过，越来越多参与方共建具身智能产业，本身是件好事，每一方都会带来不同的视角和理念。具身智能最终是交叉学科，不同思想的碰撞一定有利于产业发展。”

未来三年，具身智能最可能在哪个领域产生突破性的规模化应用？王仲远认为，首先是在相对封闭的特定场景里落地，比如工厂，这不仅能规避当前具身智能不成熟阶段的安全隐患，同时也能替代人类进行相对重复且枯燥的任务。

新京报记者张璐

编辑刘梦婕校对付春愔

来阅读我的更多文章吧

张璐

新京报记者

记者主页