北京时间5月14日凌晨,OpenAI推出新旗舰模型GPT-4o,可以实时对音频、视觉和文本进行推理。”据介绍,新模型使ChatGPT能够处理50种不同的语言。
GPT-4o的“o”代表“omni”,该词意为“全能”,源自拉丁语“omnis”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。
OpenAI研发负责人首先展示了新ChatGPT的实时语音对话功能:“我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?”ChatGPT听到后则非常体贴地表示:“你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!”
与此前有一定的反馈延迟不同,根据此次的演示,在短短232毫秒内,GPT-4o就能对音频输入做出反应,平均为320毫秒。这个反应时间,已经达到了人类的级别。它甚至能够从急促的喘气声中理解“紧张”的含义,并且安抚、指导人进行深呼吸。
在另一个演示场景下,工作人员手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演“在线导师”的角色帮助自己解题,而且只能给提示,不能直接说答案,此后,ChatGPT一步一步说出了解题步骤。
除了快速反应能力和极强的理解力,此次发布的GPT-4o让不少人感叹,大模型更有人味儿了。在演示视频中,它对人类的情绪、语气理解得十分自然精准,如同与一个真正的人类朋友或助理在聊天,被一些人感叹,“贾维斯”(电影《钢铁侠》中的人工智能助理)真的上线了。
近两日,谷歌即将召开年度I/O大会,也将发布其新的语音助手等AI新产品。
来源:北京日报客户端
记者:孙奇茹