语音助手有“人味儿”了！OpenAI推出GPT-4o

北京时间5月14日凌晨，OpenAI推出新旗舰模型GPT-4o，可以实时对音频、视觉和文本进行推理。”据介绍，新模型使ChatGPT能够处理50种不同的语言。

GPT-4o的“o”代表“omni”，该词意为“全能”，源自拉丁语“omnis”。在英语中“omni”常被用作词根，用来表示“全部”或“所有”的概念。

OpenAI研发负责人首先展示了新ChatGPT的实时语音对话功能：“我正在台上，给大家做现场演示呢，我有点紧张，该怎么办呀？”ChatGPT听到后则非常体贴地表示：“你在台上做演示吗，那你真的太棒了！深呼吸一下吧，记得你是个专家！”

与此前有一定的反馈延迟不同，根据此次的演示，在短短232毫秒内，GPT-4o就能对音频输入做出反应，平均为320毫秒。这个反应时间，已经达到了人类的级别。它甚至能够从急促的喘气声中理解“紧张”的含义，并且安抚、指导人进行深呼吸。

在另一个演示场景下，工作人员手写了一个方程，并打开摄像头拍给ChatGPT，让它扮演“在线导师”的角色帮助自己解题，而且只能给提示，不能直接说答案，此后，ChatGPT一步一步说出了解题步骤。

除了快速反应能力和极强的理解力，此次发布的GPT-4o让不少人感叹，大模型更有人味儿了。在演示视频中，它对人类的情绪、语气理解得十分自然精准，如同与一个真正的人类朋友或助理在聊天，被一些人感叹，“贾维斯”（电影《钢铁侠》中的人工智能助理）真的上线了。

近两日，谷歌即将召开年度I/O大会，也将发布其新的语音助手等AI新产品。

来源：北京日报客户端

记者：孙奇茹

举报/反馈

京报网

1480万获赞 112.1万粉丝

北京日报官方网站·首都视角天下观

北京日报官网官方账号

关注