生数科技朱军：视频模型下一步是高可控，中国视频大模型引领全球

新京报记者罗亦丹编辑寇德娜

2025-03-31 15:49

“在大语言模型领域，DeepSeek在提升效率上有独特的认知，而效率的优化的理念在视频模型领域已经扎根，因此大概率不会出现这种一下子‘遥遥领先’的模型，我们期待视频模型更可控、更好用、每个人都能用到。”清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军告诉新京报贝壳财经记者。

3月27日至31日，2025中关村论坛年会举行。在去年的中关村论坛上，朱军发布了对标Sora的首个国产自研视频大模型Vidu，受到了广泛关注。而2025中关村论坛上，朱军在主题演讲中发布了业内首个高可控视频大模型Vidu Q1，并在会后接受了新京报贝壳财经记者的采访。

朱军在2025中关村论坛上发表演讲新京报贝壳财经记者罗亦丹摄

Q代表“质量” 高可控背后是基础模型能力提升

本次回归中关村论坛，朱军带来了更为强大的 Vidu Q1模型，他告诉记者，Q代表“Quality（质量）”，即高质量、高可控，这本身实际上是基础模型能力的提升，“目前阶段投入基础模型的收益还是最大的，加上基础模型之上的一些技术创新，从后端可以更好地实现高一致性和高可控的结果。”

贝壳财经记者通过视频演示发现，Vidu Q1模型在位置、运动布局、音频等多个领域实现了可控升级。以多主体细节可控为例，在语义指令的基础上，通过融入参考图的视觉指令，Vidu Q1支持对所有动作行为（出场、退场、坐立姿态、行动路线）进行精准调整，从而用更低的抽卡率实现更高质量的可控生成。

朱军介绍，Vidu在商业化方面一直是C端与B端并重，不过目前C端由于面向全球，增长速度很快，因此视频模型的技术突破可以更好地服务广大用户。而B端则面向国内市场，目前已经看到了对MaaS（模型即服务）的广泛需求，今年也会继续同步推进两种业务。

“去年，Vidu在中关村论坛开幕前一周时实现了技术突破，因此也被邀请来到这样一个高端平台上进行展示。而今年是论坛一周年，也是Vidu大模型的一周年，因此也想在这里传达一些进展。”朱军告诉新京报贝壳财经记者。

视频模型最重要的是效率中国视频模型引领全球

朱军表示，目前大语言模型领域有能力非常领先的头部公司，但视频模型领域完全不同，“现在可以认为中国的视频模型在全球，于很多方面是处于引领地位的。”

“另外，视频模型的商业化路径会更快，大家对视频模型的消费和需求非常广阔，所以视频和文字的赛道不一样。目前头部的视频大模型各自都有特色、差异化的商业化的路径，并没有像语言模型处于红海状态。”朱军说。

在他看来，视频大模型的发展，更重要的还要看团队能否持续创新，行业上公司的密度还比较稀疏，大概率不会出现一家独大的情况。

另外，新京报贝壳财经记者注意到，今年以来DeepSeek引领起了大模型的开源浪潮，阿里云也推出了开源版本的视频模型。对此，朱军回应称，DeepSeek最打动用户的点还是效果好、效率高，“我们认为从视频模型的角度来说，用户最关心的还是质量和效率。”

记者联系邮箱：luoyidan@xjbnews.com

新京报贝壳财经记者罗亦丹

编辑寇德娜

校对王心

来阅读我的更多文章吧

罗亦丹

新京报记者