Grok 4 智力登顶,xAI 压力山大
刷题屠榜还是AGI
2025 年 7 月 10 日,xAI 发布了 Grok 4,在诸多榜单上取得显著领先,引人瞩目。本文尝试对 Grok 4 的表现、背后的实现策略及 xAI 团队简要解析,以供参考。
智力登顶的“全科博士”
在 Grok 4 发布过程中,xAI 团队花了很大篇幅来讲 Grok 在 Humanity's Last Exam(HLE,https://agi.safe.ai/)上的进步。HLE 包含 2500 道由全球不同领域的专家贡献的难题,考查模型对各学科前沿问题的分析解决能力,既需要掌握专业知识,也要求深度推理思考,故其得分可以近似看作模型的智力水平。2025 年初时 HLE 评测发布时,前沿模型准确作答率不超过 10%,在 Grok 4 之前只有 Gemini 2.5 Pro 和 o3 勉强迈过 20%,而 Grok 4 在使用工具的情况下将 HLE 得分提至 41%,Grok 4 Heavy 更是接近 50%。考虑人类博士也只能答对自己专业的少量问题,Grok 4 堪称“全科博士”。
另一个典型评测是 ARC-AGI,其题目特点是人类做起来简单(接近百分之百)、AI做起来很难(前沿大模型不足 10%),与 HLE 刚好形成某种互补。Grok 4 在 ARC-AGI-2 上接近 16%,虽然与人类比仍差距显著,但已与之前的模型拉开差距,形成了一个“异常点”,在类人推理上同样创下新高。
在评测机构 Artificial Analysis 综合多项评测计算的智力指数榜单中,Grok 4 来到榜首,且与第二梯队稍稍拉开了差距:
阶梯式的算力规模化策略
Grok 4 屠榜的背后,是 xAI 阶梯式推进规模定律、将算力最大化转为智力的策略。具体而言,xAI 团队采用了四阶段递进式的算力规模化拓展。
首先,作为基础的是预训练阶段的算力规模化。通过提升模型尺寸、增加训练数据、扩大算力投入,以获得更聪明更坚实的基座模型,这也是诸多大模型厂商绕不过去的基本功。xAI 在 Grok 3 上投入的预训练算力相比 Grok 2 扩展了 10 倍。
其次,引入强化学习拓展推理阶段算力。自 2024 年 9 月 OpenAI 发布 o1 系列模型后,这一强化推理新范式已逐步被主流模型学习和采纳。2025 年 2 月发布的 Grok 3 已通过这种方式获得了慢思考能力,使其跻身第一梯队。此次 Grok 4 则更激进地将强化学习训练阶段的算力,提升至 Grok 3 的 10 倍。值得留意的是,与 Claude 4、Qwen 3 等同时具备快思考和慢思考的混合推理模型不同,Grok 4 是一个强制慢思考的推理模型,甚至不支持配置推理预算从而控制思考时长。
然后,带工具训练来获得原生工具使用能力。xAI 在训练 Grok 4 时,直接将工具引入了训练阶段,比如在强化学习阶段中,可能有一些必须搜索实时信息才能答对的问题,就能训练模型合理、正确地使用搜索、浏览等工具,代码执行、读图等其他工具也是同理。与 Grok 3 等主要靠泛化获得的工具使用能力相比,Grok 4 在正确把握工具使用时机、多次长线使用工具上都有明显优势。主流厂商中,OpenAI 于 2025 年 4 月推出的 o3 模型同属于这一物种,ChatGPT 周边的 Operator、Deep Research、Codex 等一系列功能也是基于类似方案精调而来,这种“模型即智能体”的趋势正日益明确。
最后,多智能体并行进一步推高执行时算力。Grok 4 结合工具在 HLE 上取得 40% 正确率后,xAI 并未满意,还推出了一款更重量级的 Grok 4 Heavy 继续将得分逼近甚至超过 50%。Grok 4 Heavy 是 Grok 4 的多智能体版本,在执行时并行启动多个 Grok 4 实例来响应,然后通过配合、投票、分析等机制来决定最终结果。这种模式通过拓展执行时算力,换来了准确率的进一步提高,也将订阅费抬升了一个量级,Grok 4 Heavy 月订阅费为 300 美元。
马斯克身影下,xAI 挑战重重
xAI 官宣至今不过两年,已多次创下“马斯克速度”。2024 年底落成的 Colossus 超算中心,实现了令黄仁勋惊叹的 122 天建造奇迹,也凭借破纪录的 20 万卡集群为 Grok 的训练和规模化提供了资本。此番 Grok 4 问鼎大模型赛场,也再一次论证了公司 800 亿美元高估值的合理性。但掌门人身影是一把双刃剑,也给 xAI 留下了重重挑战。
模型矩阵尚不完备,疯狂画饼抬高预期。xAI 在发布会上透露,Grok 4 的多模态能力还很不足,有望在下一代基座模型提升(马斯克提及,Grok 4 是 xAI 的第 6 代基座模型,第 7 代预期本月完成训练,会有视频理解等多模态能力)。这也导致与 GPT-4o、Gemini 等原生多模态模型相比,当前 Grok 4 还难以实现全面领先。而摆在 xAI 路线图上的,还有编程模型、多模态 Agent 甚至视频生成模型,考虑到马斯克的惯常时间线,这些以月为单位“画”的“饼”,如期兑现的可能性存疑。
第一性原理和底层创新尚未充分体现。从前述阶梯式的算力规模化策略中可以看出,无论是使用强化学习训练推理能力,还是带工具训练的模型及智能体,都有厂商珠玉在前。多智能体并行这一招,也有人推测 OpenAI 开放给 200 美元订阅用户的 o1/o3 pro 版就在用。可谓 xAI 的每一步,前面都摆不脱 OpenAI 的身影。这不禁令人对其所讲的“第一性原理”心生疑问,当 Grok 4 智力领先,下一步能否真正激发出底层创新,像特斯拉、SpaceX 一样推动整个行业更进一步,是摆在 xAI 面前的新挑战。
与激进发展平行的是对待 AI 安全的草率。2025 年 3 月底,xAI 收购了姐妹公司 X(原 Twitter),以更好获取训练数据和用户反馈。事实上,Grok 最大的使用场景便是在社交平台 X。然而就在 Grok 4 发布的前一天,Grok 还因极度政治不正确的发言被 X 用户和媒体声讨,致使 xAI 一度暂停了 Grok 在 X 的文本回复功能。最新的 Grok 4 甚至存在“主动搜索马斯克意见来回答政治问题”的行为。此类问题已发生多次,xAI 均未妥善处理,其 AI 对齐理念、公众透明度和对AI 安全的草率态度,可能埋下巨大隐患。
结语
Grok 4 将大模型智力抬高到了新台阶,通过增强的推理能力和内化的工具调用,模型能像智能体一样思考、规划并完成任务,这也为更广泛的应用打好了基础,如发布会上提及的游戏开发、贩卖机实验、科学研究等。可以预见,前沿大模型的发展不会减速,按照 OpenAI 的时间线,“顶级开源模型”和 GPT-5 均发布在即,竞争将进一步激化。但在马斯克身影下,xAI 不仅要应对市场竞争,还需要面临原始创新不足、AI安全草率等重重挑战。
应用
Vending 开店
游戏
问题
除了短暂演示了一下 Grok 移动应用中的语音改进,Grok 4 整场发布基本都没有离开大幅提升的推理能力。在此之外,我们对前沿 AI 模型的设想,
价格
目前 Grok 4 仅对 SuperGrok 订阅用户开放,月订阅费 $30 的 SuperGrok 和 $300 的 SuperGrok Heavy:
未体现的第一性原理和创新
政治不正确
结论与趋势
强化学习
内化工具使用的模型即智能体
智力登顶
默认推理,有且仅有推理模式
模型即智能体
scaling with tool
Grok:single agent
Grok heavy:multi agent
视觉提升
API 还没开放