

2025北京智源大会6月6日开幕,智源研究院院长王仲远就多模态大模型、具身智能等热点问题接受媒体采访。他表示,多模态大模型已在特定场景启动落地,但尚未实现高度普适化。智源多模态大模型是为了推动AI从数字世界走向物理世界,未来除了视频、文字、语音、脑信号数据等,多模态大模型还将加入3D信号、时空信号等数据进行融合。
从繁杂的模态数据中筛选最有效信息亟待突破
王仲远表示,互联网文本数据基本已经被使用完毕,大语言模型性能提升已相对缓慢。现实世界中存在大量多模态数据,比如流程图、CT数据和各行业的传感器数据等,可以突破大语言模型的瓶颈。
开幕式上,智源研究院推出“悟界”系列大模型,其中,Emu3作为原生多模态统一架构,让大模型具备理解和推理世界的能力。
如何理解原生多模态大模型的“原生”概念?王仲远说,当前多模态大模型的学习路径,尤其是多模态理解模型,通常是先将语言模型训练到很强的程度,随后再学习其他模态信息,如同先达到博士学位水平,再去接触其他知识。在此过程中,模型的能力可能会出现下降,从“博士”水平降至“大学”甚至“高中”水平。
但人类的学习路径不是这样的,小朋友从出生就开始听到世界的声音,跟各种物品、图像交互学习,父母通过声音教他。所谓的“原生”正是如此,是指在模型训练初始阶段,就将文字、图像、声音乃至脑信号等各种模态数据都纳入其中进行训练。随着模态种类不断增加,如何从繁杂的模态数据中筛选出最有效的信息,成为亟待突破的技术难题。目前,不仅智源研究院,行业内众多机构都在积极探索原生多模态技术。
此外,也有专家学者猜测,国际上近期发布的产品背后或许已运用原生多模态技术,不过这些产品对技术细节的披露愈发稀少。从行业专家及学术层面来看,原生多模态是值得深入探索的技术路线,它与企业多模态技术路线存在差异。企业多模态技术是先强化语言模型,再添加多模态,更便于实现产业落地。
在产业界,多模态大模型依然在做图像生成、视频生成,这些在设计、广告、电商领域有很好的落地,可以极大提升生产效率。王仲远介绍,多模态大模型已在特定场景启动落地,但尚未实现高度普适化。在实际场景中,多模态需求不可回避。例如,英语教学需融合声音、图像与场景理解,但当前多模态大模型能力仍显著弱于语言模型,导致产品效果不及预期。尽管产业界尝试通过“打补丁”的方式优化体验,但根本性突破仍依赖更强大的基础模型。
未来多模态模型将加入3D信号、时空信号等
“智源多模态大模型是为了推动AI从数字世界走向物理世界。”王仲远说,具身领域的数据有更多模态,现在的模态包括视频、文字、语音、脑信号数据等,未来还可能加入3D信号、时空信号等数据。
“我们做的原生多模态世界模型的统一架构,不仅理解静态的多模态数据,还要理解空间、时间。”他举例说,现在很多多模态模型看到桌子上的咖啡杯,会描述“咖啡杯在桌上,咖啡杯是白色的,上面有一些文字”,但人类对空间上的认知会觉得“咖啡杯在桌子的边缘,很危险”。现在绝大部分多模态大模型不具备这样的判断能力。
有了空间的理解后,机器人操作时就应该从桌子边缘往里拿杯子,而不是从里往外拿杯子。“咖啡杯有可能掉下去甚至弄脏地板,这就是时空智能预测,是我们要探索的多模态世界模型的能力。”
具身智能“小组赛”还未结束,远没有到“淘汰赛”
谈及具身智能,王仲远表示,在具身智能发展过程中,智源希望能探索出独特的发展路径:首先是数字智能物理化。通过大模型技术将数字世界的推理、规划等智能能力延伸至物理世界,推动机器人从“单一功能”向“通用智能”进化。
其次是低成本功能化。聚焦垂直场景,降低单台机器人成本并强化特定能力,如家庭清洁、工业分拣,通过规模化落地积累数据,逐步拓展应用边界,让很多小型机器人也能走进千家万户。因为大型人形机器人技术复杂度高,商业化周期更长,而小型专用机器人若能在细分场景实现极致性价比,可能率先渗透家庭与产业场景,为具身智能的长期发展奠定基础。
目前,许多智能驾驶车企正在进军具身智能领域。对此,他认为,车企的核心优势体现在制造能力与产业链整合、落地场景资源两个方面。智能驾驶车企积累的交通、出行等场景数据,可能为具身智能提供初期应用场景,比如物流、服务机器人等。
但具身智能的技术复杂度远超智能驾驶,需融合感知、决策、行动等多维度能力,对算法、硬件协同要求更高,车企现有技术积累未必直接适用。另外,具身智能尚处发展早期。“小组赛”阶段,大模型机构、硬件厂商、科研团队等多方参与,不同领域玩家的技术路径仍在碰撞中,远没有到“淘汰赛”阶段,最终谁能形成突破尚未可知。“不过,越来越多参与方共建具身智能产业,本身是件好事,每一方都会带来不同的视角和理念。具身智能最终是交叉学科,不同思想的碰撞一定有利于产业发展。”
未来三年,具身智能最可能在哪个领域产生突破性的规模化应用?王仲远认为,首先是在相对封闭的特定场景里落地,比如工厂,这不仅能规避当前具身智能不成熟阶段的安全隐患,同时也能替代人类进行相对重复且枯燥的任务。
新京报记者 张璐
编辑 刘梦婕 校对 付春愔
