新京报客户端

好新闻 无止境

立即打开
生数科技朱军:视频模型下一步是高可控,中国视频大模型引领全球
新京报 记者 罗亦丹 编辑 寇德娜
2025-03-31 15:49

“在大语言模型领域,DeepSeek在提升效率上有独特的认知,而效率的优化的理念在视频模型领域已经扎根,因此大概率不会出现这种一下子‘遥遥领先’的模型,我们期待视频模型更可控、更好用、每个人都能用到。”清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军告诉新京报贝壳财经记者。


3月27日至31日,2025中关村论坛年会举行。在去年的中关村论坛上,朱军发布了对标Sora的首个国产自研视频大模型Vidu,受到了广泛关注。而2025中关村论坛上,朱军在主题演讲中发布了业内首个高可控视频大模型Vidu Q1,并在会后接受了新京报贝壳财经记者的采访。


朱军在2025中关村论坛上发表演讲 新京报贝壳财经记者 罗亦丹 摄


Q代表“质量” 高可控背后是基础模型能力提升


本次回归中关村论坛,朱军带来了更为强大的 Vidu Q1模型,他告诉记者,Q代表“Quality(质量)”,即高质量、高可控,这本身实际上是基础模型能力的提升,“目前阶段投入基础模型的收益还是最大的,加上基础模型之上的一些技术创新,从后端可以更好地实现高一致性和高可控的结果。”


贝壳财经记者通过视频演示发现,Vidu Q1模型在位置、运动布局、音频等多个领域实现了可控升级。以多主体细节可控为例,在语义指令的基础上,通过融入参考图的视觉指令,Vidu Q1支持对所有动作行为(出场、退场、坐立姿态、行动路线)进行精准调整,从而用更低的抽卡率实现更高质量的可控生成。


朱军介绍,Vidu在商业化方面一直是C端与B端并重,不过目前C端由于面向全球,增长速度很快,因此视频模型的技术突破可以更好地服务广大用户。而B端则面向国内市场,目前已经看到了对MaaS(模型即服务)的广泛需求,今年也会继续同步推进两种业务。


“去年,Vidu在中关村论坛开幕前一周时实现了技术突破,因此也被邀请来到这样一个高端平台上进行展示。而今年是论坛一周年,也是Vidu大模型的一周年,因此也想在这里传达一些进展。”朱军告诉新京报贝壳财经记者。


视频模型最重要的是效率 中国视频模型引领全球


朱军表示,目前大语言模型领域有能力非常领先的头部公司,但视频模型领域完全不同,“现在可以认为中国的视频模型在全球,于很多方面是处于引领地位的。”


“另外,视频模型的商业化路径会更快,大家对视频模型的消费和需求非常广阔,所以视频和文字的赛道不一样。目前头部的视频大模型各自都有特色、差异化的商业化的路径,并没有像语言模型处于红海状态。”朱军说。


在他看来,视频大模型的发展,更重要的还要看团队能否持续创新,行业上公司的密度还比较稀疏,大概率不会出现一家独大的情况。


另外,新京报贝壳财经记者注意到,今年以来DeepSeek引领起了大模型的开源浪潮,阿里云也推出了开源版本的视频模型。对此,朱军回应称,DeepSeek最打动用户的点还是效果好、效率高,“我们认为从视频模型的角度来说,用户最关心的还是质量和效率。”


记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 寇德娜

校对 王心


来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关专题

聚焦 | 2025中关村论坛

相关推荐
​视频大模型Vidu Q1官宣上线 每秒生成价格最低0.3元
科技
智聚京西·北京移动算力赋能点亮仪式在门头沟京西智谷成功举办
新京号
2025中关村论坛年会重大成果发布,哪些惠及民生?
北京
人工智能群星闪耀时——探访北京“人工智能第一城”
北京
《科技日报》聚焦门头沟京西智谷:先行先试打造AI产业高地
新京号
2025上海车展将启幕,看AI重构汽车产业新图景
汽车
智谱三大类模型开源,北京如何布局“开源之都”
科技
新质生产力如何重塑影像未来?vivo交出“中国方案”
科技
全动力矩阵亮相上海车展,广汽本田以长期主义赋能智电转型
汽车
北京何以连续多年成为中国“独角兽第一城”?
北京

新京报报料邮箱:67106710@bjnews.com.cn