OpenAI GPT-4o
原生多模态的突破
关键词:原生多模态,丰富玩法,普惠定价,有限开放
耳脑直通,端到端
ChatGPT 的手机 app 中很早就加入了语音对话功能,但底层是业内常用的三段式技术路线:
- STT 语音转文字(或称 ASR 语音识别),基于 OpenAI 自研的 whisper 模型(已开源)
- Text2Text 文本生成,基于大家熟知的 GPT 系列大语言模型
- TTS 文字转语音,基于 OpenAI 自研的语音合成模型
如果我们将 LLM 视为 AI 大脑,STT 和 TTS 则扮演了 AI 的耳朵(听)和嘴巴(说),但与人类显著不同,AI 大脑「听到」的并非原始的声音,而是 STT 转换过的文字,这意味着我们在讲话时的语气、情绪等信息都会被压缩甚至滤掉,更不要提不包含有效文字的自然声音片段了。同样的,TTS 也很难基于所要表达的内容动态地填充情绪。总体的感觉是耳到脑、脑到口的连通均不通畅,依赖于助听器和合成器(不严谨的比喻)才能交流。
另一重要的因素是,该流程至少要引入三个不同的模型,即使 ChatGPT app 在后两个环节已经采用流式生成技术大幅减少了等待时间,其实际体验的延时(官方表示平均 GPT-3.5 为 2.8 秒、GPT-4 为 5.4 秒)仍与正常对话距离甚远。
GPT-4o 跳出了这个框架,以原生多模态的思路,直接端到端训练,语音进语音出(Voice2Voice)。在 GPT-4V 赋予了 LLM 视觉能力后,GPT-4o 则在其基础上直接摘掉了助听器和合成器,获得了真正的听觉和话语能力。至此 AI 大脑 目、耳、口 齐全,官方若干演示中已非常逼近人与人正常的对话交流,以 omni 来后缀这个模型,十分全面。
新能力,新玩法
相比前任模型,GPT-4o 主打的优势就在于原生语音交互能力。而且不要忘了,(从应用的角度看)GPT-4o 的语音能力,是在保持了 GPT-4 级别的语言能力 和 GPT-4V 级别的视觉能力 的前提下新增的,意味着三者可以有机结合,诞生出更多玩法。
从官方释出的演示视频中,比较有趣的玩法有:
- 实时翻译(相比之前三星的演示,GPT-4o 似乎有更低的延时(?),官方说 GPT-4o 的多语言能力进一步增加,感觉稍加适配说不定就能做同声传译的工作)
- 语音 prompt(通过语音提示词直接控制模型的发音,速度、情绪等)
- 视障人士辅助(BeMyEyes)
- AI 情歌对唱?
- Her(官宣文中提及了记忆但没看到相应的演示,如果长期记忆成熟,类似于 Her 的私人助理/伴侣才更跑得通,目前还主要是对话情绪)
值得一提的是,GPT-4o 页面上还展示了一些探索性的新能力,比如可以帮你合成 3D 模型:
有待后续实用测评。
免费体验,加钱超频
除了原生多模态的端到端训练,OpenAI 应该在降低推理成本上下了一些功夫,GPT-4o 的 API 定价仅为 GPT-4 Turbo 的一半,产品侧更是要将 GPT-4o 逐步开放给公众免费使用(包含请求频率限制),可通过充电订阅 ChatGPT Plus,以获得 5 倍的额度。
OpenAI 还推出了一款 macOS 应用,可以更深入地集成进工作流,写代码、开会议均可召唤 GPT-4o 来协作。目前仅对部分 Plus 用户开放,未来会让免费用户也能体验。
对开发者而言,必须强调的是,GPT-4o 并未将语音能力开放为 API,即通过 API 仍只能像使用 GPT-4 Turbo 一样输入文本和图片。
Developers can also now access GPT-4o in the API as a text and vision model. GPT-4o is 2x faster, half the price, and has 5x higher rate limits compared to GPT-4 Turbo. We plan to launch support for GPT-4o's new audio and video capabilities to a small group of trusted partners in the API in the coming weeks.
在 OpenAI 的规划里,新能力只会定向开放给有限的合作伙伴,也许是苹果吧。