2025 年 7 月 10 日，xAI 发布了 Grok 4，在诸多榜单上取得显著领先，引人瞩目。本文尝试对 Grok 4 的表现、背后的实现策略及 xAI 团队简要解析，以供参考。

智力登顶的“全科博士”

在 Grok 4 发布过程中，xAI 团队花了很大篇幅来讲 Grok 在 Humanity's Last Exam（HLE，https://agi.safe.ai/）上的进步。HLE 包含 2500 道由全球不同领域的专家贡献的难题，考查模型对各学科前沿问题的分析解决能力，既需要掌握专业知识，也要求深度推理思考，故其得分可以近似看作模型的智力水平。2025 年初时 HLE 评测发布时，前沿模型准确作答率不超过 10%，在 Grok 4 之前只有 Gemini 2.5 Pro 和 o3 勉强迈过 20%，而 Grok 4 在使用工具的情况下将 HLE 得分提至 41%，Grok 4 Heavy 更是接近 50%。考虑人类博士也只能答对自己专业的少量问题，Grok 4 堪称“全科博士”。

https://scale.com/leaderboard/humanitys_last_exam

另一个典型评测是 ARC-AGI，其题目特点是人类做起来简单（接近百分之百）、AI做起来很难（前沿大模型不足 10%），与 HLE 刚好形成某种互补。Grok 4 在 ARC-AGI-2 上接近 16%，虽然与人类比仍差距显著，但已与之前的模型拉开差距，形成了一个“异常点”，在类人推理上同样创下新高。

在评测机构 Artificial Analysis 综合多项评测计算的智力指数榜单中，Grok 4 来到榜首，且与第二梯队稍稍拉开了差距：

https://x.com/ArtificialAnlys/status/1943166841150644622

阶梯式的算力规模化策略

Grok 4 屠榜的背后，是 xAI 阶梯式推进规模定律、将算力最大化转为智力的策略。具体而言，xAI 团队采用了四阶段递进式的算力规模化拓展。

首先，作为基础的是预训练阶段的算力规模化。通过提升模型尺寸、增加训练数据、扩大算力投入，以获得更聪明更坚实的基座模型，这也是诸多大模型厂商绕不过去的基本功。xAI 在 Grok 3 上投入的预训练算力相比 Grok 2 扩展了 10 倍。

其次，引入强化学习拓展推理阶段算力。自 2024 年 9 月 OpenAI 发布 o1 系列模型后，这一强化推理新范式已逐步被主流模型学习和采纳。2025 年 2 月发布的 Grok 3 已通过这种方式获得了慢思考能力，使其跻身第一梯队。此次 Grok 4 则更激进地将强化学习训练阶段的算力，提升至 Grok 3 的 10 倍。值得留意的是，与 Claude 4、Qwen 3 等同时具备快思考和慢思考的混合推理模型不同，Grok 4 是一个强制慢思考的推理模型，甚至不支持配置推理预算从而控制思考时长。

然后，带工具训练来获得原生工具使用能力。xAI 在训练 Grok 4 时，直接将工具引入了训练阶段，比如在强化学习阶段中，可能有一些必须搜索实时信息才能答对的问题，就能训练模型合理、正确地使用搜索、浏览等工具，代码执行、读图等其他工具也是同理。与 Grok 3 等主要靠泛化获得的工具使用能力相比，Grok 4 在正确把握工具使用时机、多次长线使用工具上都有明显优势。主流厂商中，OpenAI 于 2025 年 4 月推出的 o3 模型同属于这一物种，ChatGPT 周边的 Operator、Deep Research、Codex 等一系列功能也是基于类似方案精调而来，这种“模型即智能体”的趋势正日益明确。

最后，多智能体并行进一步推高执行时算力。Grok 4 结合工具在 HLE 上取得 40% 正确率后，xAI 并未满意，还推出了一款更重量级的 Grok 4 Heavy 继续将得分逼近甚至超过 50%。Grok 4 Heavy 是 Grok 4 的多智能体版本，在执行时并行启动多个 Grok 4 实例来响应，然后通过配合、投票、分析等机制来决定最终结果。这种模式通过拓展执行时算力，换来了准确率的进一步提高，也将订阅费抬升了一个量级，Grok 4 Heavy 月订阅费为 300 美元。

马斯克身影下，xAI 挑战重重

xAI 官宣至今不过两年，已多次创下“马斯克速度”。2024 年底落成的 Colossus 超算中心，实现了令黄仁勋惊叹的 122 天建造奇迹，也凭借破纪录的 20 万卡集群为 Grok 的训练和规模化提供了资本。此番 Grok 4 问鼎大模型赛场，也再一次论证了公司 800 亿美元高估值的合理性。但掌门人身影是一把双刃剑，也给 xAI 留下了重重挑战。

模型矩阵尚不完备，疯狂画饼抬高预期。xAI 在发布会上透露，Grok 4 的多模态能力还很不足，有望在下一代基座模型提升（马斯克提及，Grok 4 是 xAI 的第 6 代基座模型，第 7 代预期本月完成训练，会有视频理解等多模态能力）。这也导致与 GPT-4o、Gemini 等原生多模态模型相比，当前 Grok 4 还难以实现全面领先。而摆在 xAI 路线图上的，还有编程模型、多模态 Agent 甚至视频生成模型，考虑到马斯克的惯常时间线，这些以月为单位“画”的“饼”，如期兑现的可能性存疑。

第一性原理和底层创新尚未充分体现。从前述阶梯式的算力规模化策略中可以看出，无论是使用强化学习训练推理能力，还是带工具训练的模型及智能体，都有厂商珠玉在前。多智能体并行这一招，也有人推测 OpenAI 开放给 200 美元订阅用户的 o1/o3 pro 版就在用。可谓 xAI 的每一步，前面都摆不脱 OpenAI 的身影。这不禁令人对其所讲的“第一性原理”心生疑问，当 Grok 4 智力领先，下一步能否真正激发出底层创新，像特斯拉、SpaceX 一样推动整个行业更进一步，是摆在 xAI 面前的新挑战。

与激进发展平行的是对待 AI 安全的草率。2025 年 3 月底，xAI 收购了姐妹公司 X（原 Twitter），以更好获取训练数据和用户反馈。事实上，Grok 最大的使用场景便是在社交平台 X。然而就在 Grok 4 发布的前一天，Grok 还因极度政治不正确的发言被 X 用户和媒体声讨，致使 xAI 一度暂停了 Grok 在 X 的文本回复功能。最新的 Grok 4 甚至存在“主动搜索马斯克意见来回答政治问题”的行为。此类问题已发生多次，xAI 均未妥善处理，其 AI 对齐理念、公众透明度和对AI 安全的草率态度，可能埋下巨大隐患。

https://x.com/ramez/status/1943431212766294413

结语

Grok 4 将大模型智力抬高到了新台阶，通过增强的推理能力和内化的工具调用，模型能像智能体一样思考、规划并完成任务，这也为更广泛的应用打好了基础，如发布会上提及的游戏开发、贩卖机实验、科学研究等。可以预见，前沿大模型的发展不会减速，按照 OpenAI 的时间线，“顶级开源模型”和 GPT-5 均发布在即，竞争将进一步激化。但在马斯克身影下，xAI 不仅要应对市场竞争，还需要面临原始创新不足、AI安全草率等重重挑战。