新京报客户端

好新闻 无止境

立即打开
智源研究院院长王仲远:多模态大模型尚未实现高度普适化
新京报 记者 张璐 编辑 刘梦婕
2025-06-07 08:49
未来,多模态大模型将加入3D信号、时空信号等数据。

2025北京智源大会6月6日开幕,智源研究院院长王仲远就多模态大模型、具身智能等热点问题接受媒体采访。他表示,多模态大模型已在特定场景启动落地,但尚未实现高度普适化。智源多模态大模型是为了推动AI从数字世界走向物理世界,未来除了视频、文字、语音、脑信号数据等,多模态大模型还将加入3D信号、时空信号等数据进行融合。

 

从繁杂的模态数据中筛选最有效信息亟待突破

 

王仲远表示,互联网文本数据基本已经被使用完毕,大语言模型性能提升已相对缓慢。现实世界中存在大量多模态数据,比如流程图、CT数据和各行业的传感器数据等,可以突破大语言模型的瓶颈。

 

开幕式上,智源研究院推出“悟界”系列大模型,其中,Emu3作为原生多模态统一架构,让大模型具备理解和推理世界的能力。

 

如何理解原生多模态大模型的“原生”概念?王仲远说,当前多模态大模型的学习路径,尤其是多模态理解模型,通常是先将语言模型训练到很强的程度,随后再学习其他模态信息,如同先达到博士学位水平,再去接触其他知识。在此过程中,模型的能力可能会出现下降,从“博士”水平降至“大学”甚至“高中”水平。

 

但人类的学习路径不是这样的,小朋友从出生就开始听到世界的声音,跟各种物品、图像交互学习,父母通过声音教他。所谓的“原生”正是如此,是指在模型训练初始阶段,就将文字、图像、声音乃至脑信号等各种模态数据都纳入其中进行训练。随着模态种类不断增加,如何从繁杂的模态数据中筛选出最有效的信息,成为亟待突破的技术难题。目前,不仅智源研究院,行业内众多机构都在积极探索原生多模态技术。

 

此外,也有专家学者猜测,国际上近期发布的产品背后或许已运用原生多模态技术,不过这些产品对技术细节的披露愈发稀少。从行业专家及学术层面来看,原生多模态是值得深入探索的技术路线,它与企业多模态技术路线存在差异。企业多模态技术是先强化语言模型,再添加多模态,更便于实现产业落地。

 

在产业界,多模态大模型依然在做图像生成、视频生成,这些在设计、广告、电商领域有很好的落地,可以极大提升生产效率。王仲远介绍,多模态大模型已在特定场景启动落地,但尚未实现高度普适化。在实际场景中,多模态需求不可回避。例如,英语教学需融合声音、图像与场景理解,但当前多模态大模型能力仍显著弱于语言模型,导致产品效果不及预期。尽管产业界尝试通过“打补丁”的方式优化体验,但根本性突破仍依赖更强大的基础模型。

 

未来多模态模型将加入3D信号、时空信号等

 

“智源多模态大模型是为了推动AI从数字世界走向物理世界。”王仲远说,具身领域的数据有更多模态,现在的模态包括视频、文字、语音、脑信号数据等,未来还可能加入3D信号、时空信号等数据。

 

“我们做的原生多模态世界模型的统一架构,不仅理解静态的多模态数据,还要理解空间、时间。”他举例说,现在很多多模态模型看到桌子上的咖啡杯,会描述“咖啡杯在桌上,咖啡杯是白色的,上面有一些文字”,但人类对空间上的认知会觉得“咖啡杯在桌子的边缘,很危险”。现在绝大部分多模态大模型不具备这样的判断能力。

 

有了空间的理解后,机器人操作时就应该从桌子边缘往里拿杯子,而不是从里往外拿杯子。“咖啡杯有可能掉下去甚至弄脏地板,这就是时空智能预测,是我们要探索的多模态世界模型的能力。”

 

具身智能“小组赛”还未结束,远没有到“淘汰赛”


谈及具身智能,王仲远表示,在具身智能发展过程中,智源希望能探索出独特的发展路径:首先是数字智能物理化。通过大模型技术将数字世界的推理、规划等智能能力延伸至物理世界,推动机器人从“单一功能”向“通用智能”进化。

 

其次是低成本功能化。聚焦垂直场景,降低单台机器人成本并强化特定能力,如家庭清洁、工业分拣,通过规模化落地积累数据,逐步拓展应用边界,让很多小型机器人也能走进千家万户。因为大型人形机器人技术复杂度高,商业化周期更长,而小型专用机器人若能在细分场景实现极致性价比,可能率先渗透家庭与产业场景,为具身智能的长期发展奠定基础。

 

目前,许多智能驾驶车企正在进军具身智能领域。对此,他认为,车企的核心优势体现在制造能力与产业链整合、落地场景资源两个方面。智能驾驶车企积累的交通、出行等场景数据,可能为具身智能提供初期应用场景,比如物流、服务机器人等。

 

但具身智能的技术复杂度远超智能驾驶,需融合感知、决策、行动等多维度能力,对算法、硬件协同要求更高,车企现有技术积累未必直接适用。另外,具身智能尚处发展早期。“小组赛”阶段,大模型机构、硬件厂商、科研团队等多方参与,不同领域玩家的技术路径仍在碰撞中,远没有到“淘汰赛”阶段,最终谁能形成突破尚未可知。“不过,越来越多参与方共建具身智能产业,本身是件好事,每一方都会带来不同的视角和理念。具身智能最终是交叉学科,不同思想的碰撞一定有利于产业发展。”

 

未来三年,具身智能最可能在哪个领域产生突破性的规模化应用?王仲远认为,首先是在相对封闭的特定场景里落地,比如工厂,这不仅能规避当前具身智能不成熟阶段的安全隐患,同时也能替代人类进行相对重复且枯燥的任务。

 

新京报记者 张璐

编辑 刘梦婕 校对 付春愔

来阅读我的更多文章吧
张璐
新京报记者
记者主页
相关推荐
智源研究院发布“悟界”系列大模型,推动AI迈向物理世界
北京
智源研究院院长王仲远:多模态大模型会给具身智能带来新变量
北京
“咖啡机器人”亮相中关村论坛的幕后:现制饮品的深度智能化
消费
人工智能群星闪耀时——探访北京“人工智能第一城”
北京
2025中国科幻大会——科幻游戏产业发展大会成功举办
新京号
大戏看北京3月24-30日文艺资讯丨京剧《齐白石》展巨匠人生
娱乐
北京备案上线大模型数量全国居首,委员建言大模型发展
北京
智源研究院发布2025十大AI技术趋势:具身智能元年到来
科技
思辨激发梦想 实践成就未来——东城区中小学生观摩市两会
新京号
“智”启未来:抢占新高地,人形机器人“苦练”家务
科技

新京报报料邮箱:67106710@bjnews.com.cn