新京报客户端

好新闻 无止境

立即打开
GPT-4o发布:可读懂用户情绪的智能助理如何从科幻走入现实
新京报 记者 罗亦丹 编辑 李铮
2024-05-14 14:58

北京时间5月14日凌晨,OpenAI在一场26分钟的直播中发布了新一代旗舰生成模型GPT-4o,展示了可以毫秒级反应、识别人类情绪进行音视频交互,可多模态输入/输出等一系列新能力。伴随这些能力的还有一个新的桌面版的ChatGPT以及新的用户界面,首席技术官米拉(Mira Murati)表示,这是为了让更多人更方便地使用,她宣布了OpenAI的产品理念:免费优先。

  

发布会结束后,OpenAI首席执行官山姆·奥特曼在个人社交平台发布了一个单词:她(her)。在科幻电影《她》里,AI助理爱上了人类,而今天,具备新功能、接入GPT-4o的ChatGPT语音助手产品,似乎真的有望让科幻电影的桥段走入现实。

  

识别表情语气、可随时打断 GPT-4o展示“真”语音助手

  

“我第一次来直播的发布会,有点紧张。”当OpenAI前沿研究部门主管马克(Mark Chen)通过手机对ChatGPT说话时,ChatGPT回答,“要不你深呼吸一下?”

  

“好的,我深呼吸。”

  

“慢一点,马克,你不是吸尘器。”

  

——这是发生在直播中的一幕,通过直播,OpenAI全方位展示了接入GPT-4o后,ChatGPT是如何识别用户语音中的情绪的。此后,马克还示范了ChatGPT如何用不同的声音朗读AI生成的故事,包括超级戏剧化的朗诵、机器人音调,甚至唱歌。

 

OpenAI前沿研究部门主管马克展示GPT-4o的实时语音交互能力。

 

这似乎已经不同于“传统”的语音助手技术了,有专家表示,目前市面上一些“语音助手”实际的技术逻辑是把听到的语音转换成文字,使用文字回答后再转换成语音回复给用户,因此这类语音助手无法听出语音中包含的情绪,并且存在延迟的问题,但根据今日的演示,OpenAI似乎解决了这一问题。

 

根据OpenAI发布在官网的最新博客文章,在GPT-4o之前,语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。而现在,GPT-4o最快可以在 232 毫秒的时间内响应音频输入,平均响应时长320毫秒,与人类相似。据了解,GPT-4o是单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。 

 

除了语音方面的情绪识别,GPT-4o还拥有实时视觉功能,根据OpenAI研究员巴雷特(Barret Zoph)的演示,ChatGPT通过手机摄像头帮助他实时解了一个方程,就像一名真实的数学老师在旁边指导每一个解题步骤。“每当你为数学焦头烂额的时候,我就在你身边。”ChatGPT说。

 

ChatGPT甚至还能通过前置摄像头观察用户的面部表情,分析其情绪。在回答网友提问“ChatGPT能识别你的表情吗?”这一问题时,巴雷特把手机摄像头对准自己,然后ChatGPT回答,“一个大大的微笑,你看起来非常开心。”

 

ChatGPT识别OpenAI研究员巴雷特的情绪。 

  

此外,本次演示还展示了GPT-4o的代码能力、实时翻译能力等。奥特曼介绍,GPT-4o中的“o”代表“omni(全面、全能)”,因为该模型同时具备文本、图片、视频和语音方面的能力。

  

数据显示,GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高,同时 API(接口)的速度也更快。

  

同时,GPT-4o成本也有所降低,官网显示,GPT-4o输入、输出每1M token(语句单位)收费0.005美元、0.015美元,而GPT-4 Turbo输入、输出每1M token收费0.01美元、0.03美元,相比之下GPT-4o的成本降低了50%。

  

新交互、新界面下的OpenAI愿景:让更多人使用 产品免费优先

  

接入新版大模型后,ChatGPT可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。

  

在今天的第一轮演示中,ChatGPT是在手机端直接使用的。值得注意的是,近日还有消息传出苹果与OpenAI商谈,以便在下一代iPhone操作系统中使用ChatGPT功能。

  

此外,ChatGPT还在苹果电脑中拥有了一个“桌面版本”,以及新的用户界面。通过键盘快捷键(Option + Space),用户可以立即向 ChatGPT 提问,此外,用户还可以直接在应用程序中截取屏幕并进行讨论。今年晚些时候,OpenAI也会推出Windows版本。

  

奥特曼对此发文称,“新的语音(和视频)模式是我用过的最好的电脑界面。这感觉就像是电影里的AI,这是真的让我有点惊讶。达到人类级别的响应时间和表达能力是一个很大的变化。”

  

“老ChatGPT界面显示了语言的可能性,而新界面给人的感觉是本质上不同的。它是快速,聪明,有趣,自然和有益的。对我来说,和电脑说话从来没有真正自然的感觉,而现在是了。随着我们添加(可选)个性化、访问您的信息、代表您采取行动的能力,以及更多,我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往任何时候都要多得多的事情。”奥特曼说。

  

此外,米拉和奥特曼都强调了OpenAI的“免费”理念。

  

米拉表示,GPT-4o的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户,“以后OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。”

  

奥特曼也发文强调了“免费”的重要性,“我们的一个关键使命就是将极其有效的AI产品免费提供给人们,我很骄傲我们做了世界上最棒的大模型并且能在ChatGPT上不用看广告就免费使用它。”

  

奥特曼表示,他和团队成员创建OpenAI时最初的想法是创建人工智能,并用它为世界创造各种各样的好处,“而现在看来,我们将创造AI,然后其他人将使用这个AI来创造各种各样的令人惊叹的东西,让我们大家都从中受益。”

  

“我们是一个企业,我们期望能找到收费的方式并帮我们为数十亿人提供免费的、优秀的AI服务。”奥特曼说。

  

不过,贝壳财经记者5月14日登录网页版ChatGPT发现,内置大模型选项仍然只有GPT-3.5和GPT-4两种,并未看到免费使用GPT-4o的选项。OpenAI方面称,在即将到来的几周里,用户将无需采取任何行动,即可自动接收到GPT-4o的更新。

  

5月14日记者登录网页版ChatGPT的截图。

   

值得注意的是,此次OpenAI的发布时间刚好“踩”在其竞争对手谷歌的发布会之前,有声音认为OpenAI宁可先推出GPT-4o而非人们此前预期的GPT-5,主要就是出于竞争目的考虑。

  

“比较让人失望的是,这次OpenAI没有发布GPT-5,连GPT-4.5都没看到。OpenAI发布了一系列应用,最重要的是发布了语音助手,由于使用了端到端大模型技术,体验远超Siri。OpenAI发布应用,恰恰说明应用在人工智能领域大有可为。目前看来,GPT-5可能还要‘难产’一段时间。”猎豹移动董事长兼CEO傅盛说。

 

记者联系邮箱:luoyidan@xjbnews.com

 

新京报贝壳财经记者 罗亦丹 

编辑 李铮 

校对 刘军

来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关推荐
《2025年轻人生活方式报告》全文发布
财经
重构家的边界 顾家家居发布“十大微场景”空间解决方案
企业资讯
《2025中国“宝藏小城”旅游报告》全文发布
财经
2025中国科幻大会——科幻游戏产业发展大会成功举办
新京号
关怀人文、赋能科研 科大讯飞展示AI如何改变生活
科技
热门评论
313z
7天前
要利用好呀
Mikey
7天前
好像小时候看的科幻片 长大了就成现实了
张雨辰
7天前
太科幻了

新京报报料邮箱:67106710@bjnews.com.cn