关键词：原生多模态，丰富玩法，普惠定价，有限开放

耳脑直通，端到端

ChatGPT 的手机 app 中很早就加入了语音对话功能，但底层是业内常用的三段式技术路线：

STT 语音转文字（或称 ASR 语音识别），基于 OpenAI 自研的 whisper 模型（已开源）

Text2Text 文本生成，基于大家熟知的 GPT 系列大语言模型

TTS 文字转语音，基于 OpenAI 自研的语音合成模型

如果我们将 LLM 视为 AI 大脑，STT 和 TTS 则扮演了 AI 的耳朵（听）和嘴巴（说），但与人类显著不同，AI 大脑「听到」的并非原始的声音，而是 STT 转换过的文字，这意味着我们在讲话时的语气、情绪等信息都会被压缩甚至滤掉，更不要提不包含有效文字的自然声音片段了。同样的，TTS 也很难基于所要表达的内容动态地填充情绪。总体的感觉是耳到脑、脑到口的连通均不通畅，依赖于助听器和合成器（不严谨的比喻）才能交流。

另一重要的因素是，该流程至少要引入三个不同的模型，即使 ChatGPT app 在后两个环节已经采用流式生成技术大幅减少了等待时间，其实际体验的延时（官方表示平均 GPT-3.5 为 2.8 秒、GPT-4 为 5.4 秒）仍与正常对话距离甚远。

GPT-4o 跳出了这个框架，以原生多模态的思路，直接端到端训练，语音进语音出（Voice2Voice）。在 GPT-4V 赋予了 LLM 视觉能力后，GPT-4o 则在其基础上直接摘掉了助听器和合成器，获得了真正的听觉和话语能力。至此 AI 大脑目、耳、口齐全，官方若干演示中已非常逼近人与人正常的对话交流，以 omni 来后缀这个模型，十分全面。

新能力，新玩法

相比前任模型，GPT-4o 主打的优势就在于原生语音交互能力。而且不要忘了，（从应用的角度看）GPT-4o 的语音能力，是在保持了 GPT-4 级别的语言能力和 GPT-4V 级别的视觉能力的前提下新增的，意味着三者可以有机结合，诞生出更多玩法。

从官方释出的演示视频中，比较有趣的玩法有：

实时翻译（相比之前三星的演示，GPT-4o 似乎有更低的延时（？），官方说 GPT-4o 的多语言能力进一步增加，感觉稍加适配说不定就能做同声传译的工作）

语音 prompt（通过语音提示词直接控制模型的发音，速度、情绪等）

视障人士辅助（BeMyEyes）

AI 情歌对唱？

Her（官宣文中提及了记忆但没看到相应的演示，如果长期记忆成熟，类似于 Her 的私人助理/伴侣才更跑得通，目前还主要是对话情绪）

值得一提的是，GPT-4o 页面上还展示了一些探索性的新能力，比如可以帮你合成 3D 模型：

有待后续实用测评。

免费体验，加钱超频

除了原生多模态的端到端训练，OpenAI 应该在降低推理成本上下了一些功夫，GPT-4o 的 API 定价仅为 GPT-4 Turbo 的一半，产品侧更是要将 GPT-4o 逐步开放给公众免费使用（包含请求频率限制），可通过充电订阅 ChatGPT Plus，以获得 5 倍的额度。

OpenAI 还推出了一款 macOS 应用，可以更深入地集成进工作流，写代码、开会议均可召唤 GPT-4o 来协作。目前仅对部分 Plus 用户开放，未来会让免费用户也能体验。

对开发者而言，必须强调的是，GPT-4o 并未将语音能力开放为 API，即通过 API 仍只能像使用 GPT-4 Turbo 一样输入文本和图片。

Developers can also now access GPT-4o in the API as a text and vision model. GPT-4o is 2x faster, half the price, and has 5x higher rate limits compared to GPT-4 Turbo. We plan to launch support for GPT-4o's new audio and video capabilities to a small group of trusted partners in the API in the coming weeks.

在 OpenAI 的规划里，新能力只会定向开放给有限的合作伙伴，也许是苹果吧。

参考

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

https://openai.com/index/hello-gpt-4o/

https://openai.com/api/pricing/