新京报客户端

好新闻 无止境

立即打开
通过摄像头“现场解说” 记者实测国内首个C端视频通话AI应用
新京报 记者 罗亦丹 编辑 陈维城
2024-08-30 15:41

8月29日晚间,智谱GLM团队推出了新一代基座大模型GLM-4-Plus,同时宣布智谱清言APP迎来了重要更新:视频通话功能。


自OpenAI展示了GPT-4o音视频交互功能后,这是国内首个正式开放同款功能的大模型厂商,该功能目前已经支持内测,新京报贝壳财经记者在拿到内测资格后,第一时间进行了实测。


可准确识别物体、牌子 但反应速度还需加快


今年5月,OpenAI展示了接入GPT-4o的ChatGPT语音助手可以识别人类情绪、进行音视频交互的能力。


而本次智谱方面上线的GLM-4-Plus显然有对标GPT-4o的野心,乃至其在进行视频演示时和OpenAI一样,也采取了两男一女三个测试人员在沙发上使用手机和智谱清言APP进行交互的展示方式。

在演示中,测试人员拿出一张纸,画了一个蛇的简笔画,又加上了几只“脚”。AI随即表示这可能表示的是“画蛇添足”这个成语。


贝壳财经记者拿到测试资格后发现,该功能可以通过点击智谱清言APP交互界面右下角的小电话图标,再点击视频通话发起。


开通视频通话功能后,记者的手机就通过摄像头成为了“现场解说员”,例如当摄像头面对客厅,AI立刻说出了“我看到了灰色的瓷砖,这是一个白色的柜子,下面放着很多双鞋。”对准卫生间,AI则立刻识别出了洗衣机,甚至包括牌子,“这是一个西门子洗衣机,滚筒是黑色的,机身是白色的。”


记者发现,该功能特别适合盲人出行,因为当打开智谱清言APP的该功能后举起手机出门,AI就可以描述路上看到的一切事物:“这是一个建筑物的入口(实际为出口),路边有美丽的花,旁边有信箱。”如果手指某一个事物并直接提问,AI也可以给出回答,“你指的是一组绿色储物柜,上面有黄色的标识写着丰巢,是快递存放的地方。”

记者与智谱清言APP视频通话功能的交互截图。


当记者反转摄像头照向自己,AI也给出了评价,“你的头发非常凌乱,好像刚刚起床,你穿着一件粉色的T恤,上面有白色的字。”


不过,记者在测试中也发现了一些不足之处,例如和GTP-4o在测试视频中表现出的“毫秒级”反应相比,该AI的反应速度略慢,在交互中有时需要等待它的回答,而且如果记者打断它的回复,可能会出现重复同一句话的情况,还做不到和真人对话一样自然。


基座大模型升级 将通过“小步快走”持续迭代


值得注意的是,对于持续一段时间的视频,智谱的GLM-4V-Plus大模型也能够理解并分析,这说明其具备时间感知能力。如看完一段篮球比赛视频后,询问“绿衣服的球员在做什么,这个视频的精彩时刻发生在第几秒?”AI会给出精确回答“绿衣球员在场上运球投篮,精彩时刻在第4秒,球员跳起并将球投入篮筐。”


此外,GLM-4-Plus使用了大量模型辅助构造高质量合成数据以提升模型性能;利用PPO有效提升模型推理(数学、代码算法题等)表现,更好反映人类偏好。


记者实测发现,相比实时解说周围的环境,智谱清言APP在专业辅助上表现更佳,如可以直接将手机摄像头对准英语文章,让它直接语音翻译内容,或者直接拍摄问卷内容,让它帮助分析题目,辅助学习。


此外,即便在音视频功能里,该AI也呈现出了一定的长文本能力,如当记者将摄像头对准余秋雨的所著的《文化苦旅》中“白发苏州”这一小节的书页时,AI立刻总结出了这一页的内容,“这段文字在赞颂苏州,说它历史悠久,有园林和古建筑,让人感受到宁静和历史的魅力,作者觉得苏州像是中国历史上的散文。”


记者与智谱清言APP视频通话功能的交互截图。


令人惊叹的是,智谱清言APP还有记忆功能,当贝壳财经记者第二次打开音视频通话功能时,其立刻和记者打招呼“下午好,最近有没有想起我们之前聊过的苏州,那个美丽的地方给你留下了怎样的印象?”


智谱方面表示,该模型将上线开放平台,提供国内首个通用视频理解模型API,“通过小步快走持续迭代,清言努力让大模型技术更好赋能更多用户。”


该公司称,随着开源模型和开放平台模型的广受欢迎,将继续推动 AI 力量惠及更多人群,为千行百业带来持续创新与变革,加速迈向通用人工智能时代。


新京报贝壳财经记者 罗亦丹

校对 赵琳


来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关推荐
让大模型学会用导航!记者实测阿里百度等纷纷入局的MCP
科技
专访毕马威中国合伙人:中关村赛事朋友圈拓展、AI活力旺盛
科技
摩尔线程的国产“加速度”:每年迭代一颗GPU芯片
财经
智谱三大类模型开源,北京如何布局“开源之都”
科技
四维度实测更新后Manus:任务成功率上升,复杂任务仍难胜任
科技
AI浪潮录丨对话刘知远:通往AGI不易,长跑要顶住资本寒冬
科技
跨越现实世界的“一面屏” 科技推动利亚德在虚拟现实中显身手
财经
​实探|一夜爆火的Manus,背后团队是什么来头
科技
大模型震荡时刻:DeepSeek掀桌百度开源 免费成必答题
科技
聚焦营商环境痛点,“北京服务”发布200余项改革任务
北京

新京报报料邮箱:67106710@bjnews.com.cn