新京报客户端

好新闻 无止境

立即打开
生数科技朱军:视频模型下一步是高可控,中国视频大模型引领全球
新京报 记者 罗亦丹 编辑 寇德娜
2025-03-31 15:49

“在大语言模型领域,DeepSeek在提升效率上有独特的认知,而效率的优化的理念在视频模型领域已经扎根,因此大概率不会出现这种一下子‘遥遥领先’的模型,我们期待视频模型更可控、更好用、每个人都能用到。”清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军告诉新京报贝壳财经记者。


3月27日至31日,2025中关村论坛年会举行。在去年的中关村论坛上,朱军发布了对标Sora的首个国产自研视频大模型Vidu,受到了广泛关注。而2025中关村论坛上,朱军在主题演讲中发布了业内首个高可控视频大模型Vidu Q1,并在会后接受了新京报贝壳财经记者的采访。


朱军在2025中关村论坛上发表演讲 新京报贝壳财经记者 罗亦丹 摄


Q代表“质量” 高可控背后是基础模型能力提升


本次回归中关村论坛,朱军带来了更为强大的 Vidu Q1模型,他告诉记者,Q代表“Quality(质量)”,即高质量、高可控,这本身实际上是基础模型能力的提升,“目前阶段投入基础模型的收益还是最大的,加上基础模型之上的一些技术创新,从后端可以更好地实现高一致性和高可控的结果。”


贝壳财经记者通过视频演示发现,Vidu Q1模型在位置、运动布局、音频等多个领域实现了可控升级。以多主体细节可控为例,在语义指令的基础上,通过融入参考图的视觉指令,Vidu Q1支持对所有动作行为(出场、退场、坐立姿态、行动路线)进行精准调整,从而用更低的抽卡率实现更高质量的可控生成。


朱军介绍,Vidu在商业化方面一直是C端与B端并重,不过目前C端由于面向全球,增长速度很快,因此视频模型的技术突破可以更好地服务广大用户。而B端则面向国内市场,目前已经看到了对MaaS(模型即服务)的广泛需求,今年也会继续同步推进两种业务。


“去年,Vidu在中关村论坛开幕前一周时实现了技术突破,因此也被邀请来到这样一个高端平台上进行展示。而今年是论坛一周年,也是Vidu大模型的一周年,因此也想在这里传达一些进展。”朱军告诉新京报贝壳财经记者。


视频模型最重要的是效率 中国视频模型引领全球


朱军表示,目前大语言模型领域有能力非常领先的头部公司,但视频模型领域完全不同,“现在可以认为中国的视频模型在全球,于很多方面是处于引领地位的。”


“另外,视频模型的商业化路径会更快,大家对视频模型的消费和需求非常广阔,所以视频和文字的赛道不一样。目前头部的视频大模型各自都有特色、差异化的商业化的路径,并没有像语言模型处于红海状态。”朱军说。


在他看来,视频大模型的发展,更重要的还要看团队能否持续创新,行业上公司的密度还比较稀疏,大概率不会出现一家独大的情况。


另外,新京报贝壳财经记者注意到,今年以来DeepSeek引领起了大模型的开源浪潮,阿里云也推出了开源版本的视频模型。对此,朱军回应称,DeepSeek最打动用户的点还是效果好、效率高,“我们认为从视频模型的角度来说,用户最关心的还是质量和效率。”


记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 寇德娜

校对 王心


来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关专题

聚焦 | 2025中关村论坛

相关推荐
北京海淀区蝉联“最具创投价值之城”
新京号
专访清华朱军:大模型“投毒”怎么防?技术法规社会三管齐下
财经
教育部这场部署会 “人工智能”贯穿全场
新京号
从“技术追随”到“生态引领”,北京AI崛起背后的制度密码
科技
北京大模型万马奔腾,从少数人的“玩具”到大多数人的“生产工具” 正在迈向AI普惠新时代
新京号
可灵3.0全量开放 动作控制3.0全面升级 媲美专业动捕技术
新京号
围绕面向经济主战场,中关村论坛年会发布7项重大科技成果
北京
从写代码到做工程,北京AI用硬核技术改写全球AI竞赛规则
科技
牢记嘱托 雄安新区打造新时代创新高地与发展样板
新京号
豆包大模型2.0发布 彰显多模态AI技术优势
新京号

新京报报料邮箱:82708677@bjnews.com.cn