GPT-4o发布：可读懂用户情绪的智能助理如何从科幻走入现实

新京报记者罗亦丹编辑李铮

2024-05-14 14:58

北京时间5月14日凌晨，OpenAI在一场26分钟的直播中发布了新一代旗舰生成模型GPT-4o，展示了可以毫秒级反应、识别人类情绪进行音视频交互，可多模态输入/输出等一系列新能力。伴随这些能力的还有一个新的桌面版的ChatGPT以及新的用户界面，首席技术官米拉（Mira Murati）表示，这是为了让更多人更方便地使用，她宣布了OpenAI的产品理念：免费优先。

发布会结束后，OpenAI首席执行官山姆·奥特曼在个人社交平台发布了一个单词：她（her）。在科幻电影《她》里，AI助理爱上了人类，而今天，具备新功能、接入GPT-4o的ChatGPT语音助手产品，似乎真的有望让科幻电影的桥段走入现实。

识别表情语气、可随时打断 GPT-4o展示“真”语音助手

“我第一次来直播的发布会，有点紧张。”当OpenAI前沿研究部门主管马克（Mark Chen）通过手机对ChatGPT说话时，ChatGPT回答，“要不你深呼吸一下？”

“好的，我深呼吸。”

“慢一点，马克，你不是吸尘器。”

——这是发生在直播中的一幕，通过直播，OpenAI全方位展示了接入GPT-4o后，ChatGPT是如何识别用户语音中的情绪的。此后，马克还示范了ChatGPT如何用不同的声音朗读AI生成的故事，包括超级戏剧化的朗诵、机器人音调，甚至唱歌。

OpenAI前沿研究部门主管马克展示GPT-4o的实时语音交互能力。

这似乎已经不同于“传统”的语音助手技术了，有专家表示，目前市面上一些“语音助手”实际的技术逻辑是把听到的语音转换成文字，使用文字回答后再转换成语音回复给用户，因此这类语音助手无法听出语音中包含的情绪，并且存在延迟的问题，但根据今日的演示，OpenAI似乎解决了这一问题。

根据OpenAI发布在官网的最新博客文章，在GPT-4o之前，语音模式与ChatGPT对话，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。而现在，GPT-4o最快可以在 232 毫秒的时间内响应音频输入，平均响应时长320毫秒，与人类相似。据了解，GPT-4o是单独训练的新模型，可以端到端地处理文本、视觉和音频，这意味着所有输入和输出都由同一个神经网络处理。

除了语音方面的情绪识别，GPT-4o还拥有实时视觉功能，根据OpenAI研究员巴雷特（Barret Zoph）的演示，ChatGPT通过手机摄像头帮助他实时解了一个方程，就像一名真实的数学老师在旁边指导每一个解题步骤。“每当你为数学焦头烂额的时候，我就在你身边。”ChatGPT说。

ChatGPT甚至还能通过前置摄像头观察用户的面部表情，分析其情绪。在回答网友提问“ChatGPT能识别你的表情吗？”这一问题时，巴雷特把手机摄像头对准自己，然后ChatGPT回答，“一个大大的微笑，你看起来非常开心。”

ChatGPT识别OpenAI研究员巴雷特的情绪。

此外，本次演示还展示了GPT-4o的代码能力、实时翻译能力等。奥特曼介绍，GPT-4o中的“o”代表“omni（全面、全能）”，因为该模型同时具备文本、图片、视频和语音方面的能力。

数据显示，GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，但在非英语文本上的性能显著提高，同时 API（接口）的速度也更快。

同时，GPT-4o成本也有所降低，官网显示，GPT-4o输入、输出每1M token（语句单位）收费0.005美元、0.015美元，而GPT-4 Turbo输入、输出每1M token收费0.01美元、0.03美元，相比之下GPT-4o的成本降低了50%。

新交互、新界面下的OpenAI愿景：让更多人使用产品免费优先

接入新版大模型后，ChatGPT可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。

在今天的第一轮演示中，ChatGPT是在手机端直接使用的。值得注意的是，近日还有消息传出苹果与OpenAI商谈，以便在下一代iPhone操作系统中使用ChatGPT功能。

此外，ChatGPT还在苹果电脑中拥有了一个“桌面版本”，以及新的用户界面。通过键盘快捷键（Option + Space），用户可以立即向 ChatGPT 提问，此外，用户还可以直接在应用程序中截取屏幕并进行讨论。今年晚些时候，OpenAI也会推出Windows版本。

奥特曼对此发文称，“新的语音（和视频）模式是我用过的最好的电脑界面。这感觉就像是电影里的AI，这是真的让我有点惊讶。达到人类级别的响应时间和表达能力是一个很大的变化。”

“老ChatGPT界面显示了语言的可能性，而新界面给人的感觉是本质上不同的。它是快速，聪明，有趣，自然和有益的。对我来说，和电脑说话从来没有真正自然的感觉，而现在是了。随着我们添加（可选）个性化、访问您的信息、代表您采取行动的能力，以及更多，我真的可以看到一个令人兴奋的未来，我们能够使用计算机做比以往任何时候都要多得多的事情。”奥特曼说。

此外，米拉和奥特曼都强调了OpenAI的“免费”理念。

米拉表示，GPT-4o的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能，包括免费用户，“以后OpenAI 做产品就是要免费优先，为的就是让更多的人能使用。”

奥特曼也发文强调了“免费”的重要性，“我们的一个关键使命就是将极其有效的AI产品免费提供给人们，我很骄傲我们做了世界上最棒的大模型并且能在ChatGPT上不用看广告就免费使用它。”

奥特曼表示，他和团队成员创建OpenAI时最初的想法是创建人工智能，并用它为世界创造各种各样的好处，“而现在看来，我们将创造AI，然后其他人将使用这个AI来创造各种各样的令人惊叹的东西，让我们大家都从中受益。”

“我们是一个企业，我们期望能找到收费的方式并帮我们为数十亿人提供免费的、优秀的AI服务。”奥特曼说。

不过，贝壳财经记者5月14日登录网页版ChatGPT发现，内置大模型选项仍然只有GPT-3.5和GPT-4两种，并未看到免费使用GPT-4o的选项。OpenAI方面称，在即将到来的几周里，用户将无需采取任何行动，即可自动接收到GPT-4o的更新。

5月14日记者登录网页版ChatGPT的截图。

值得注意的是，此次OpenAI的发布时间刚好“踩”在其竞争对手谷歌的发布会之前，有声音认为OpenAI宁可先推出GPT-4o而非人们此前预期的GPT-5，主要就是出于竞争目的考虑。

“比较让人失望的是，这次OpenAI没有发布GPT-5，连GPT-4.5都没看到。OpenAI发布了一系列应用，最重要的是发布了语音助手，由于使用了端到端大模型技术，体验远超Siri。OpenAI发布应用，恰恰说明应用在人工智能领域大有可为。目前看来，GPT-5可能还要‘难产’一段时间。”猎豹移动董事长兼CEO傅盛说。

记者联系邮箱：luoyidan@xjbnews.com

新京报贝壳财经记者罗亦丹

编辑李铮

校对刘军

来阅读我的更多文章吧

罗亦丹

新京报记者

记者主页