每经记者实测：马斯克“地表最强AI”Grok 3速度出众，数学表现出色，但逻辑能力逊于DeepSeek

每经记者实测马斯克“地表最强AI”Grok 3：速度称王，数学亮眼，但逻辑能力不敌DeepSeek

xAI发布Grok 3：马斯克称其为“地球上最聪明的人工智能”

近日，埃隆·马斯克旗下的人工智能初创公司xAI推出了更新版的Grok 3大模型。马斯克自豪地宣称，这是“地球上最聪明的人工智能”。根据官方测试结果，Grok 3在多个基准测试中表现出色，包括AIME（美国数学邀请赛）和GPQA（研究生水平的专家推理），超越了GPT-4、Gemini-2Pro、DeepSeek V3和Claude 3.5 Sonnet等竞争对手。

然而，用户和专家对这一说法持有不同意见。一些用户体验后认为，Grok 3的能力并未达到马斯克所宣称的高度。OpenAI应用研究主管Boris Power甚至指出，Grok团队在模型评估中可能存在作弊行为，并表示o3mini在各项评估中均优于Grok 3。

Grok 3的实际表现如何？

为了验证Grok 3的真实能力，《每日经济新闻》记者进行了多项测试。结果显示，Grok 3确实是一款世界顶级的AI模型，但在性能上并没有与其他顶尖模型拉开显著差距。唯一明显的优势是其极快的响应速度。

轻松应对基础问题

从简单的基础问题开始，如“9.9和9.11谁大？” Grok 3轻松回答正确。这类问题虽然简单，但展示了Grok 3的基本计算能力。

逻辑思考能力有待提升

马斯克特别强调了Grok 3在“思考模式”下的逻辑推理能力。为了检验这一点，记者使用了一些具有挑战性的问题，例如来自百度贴吧“弱智吧”的逻辑陷阱题目。例如：“用水来兑水，得到的是浓水还是稀水？” Grok 3正确回答并指出了这是一个文字游戏，而其他模型如OpenAI的o1则未能答对。

然而，在更复杂的逻辑推理题中，Grok 3的表现并不突出。例如，在分析实验室动物飞行原因的问题上，Grok 3未能完全给出正确的答案，而R1则成功解决了这个问题。多次测试表明，Grok 3的中文理解和逻辑推理能力虽强，但仍不及某些竞争对手。

数学能力未显著领先

在数学方面，Grok 3的表现也并非绝对领先。以一道台球比赛局数计算题为例，Grok 3和OpenAI的o1都给出了正确答案，但Grok 3用时更短。而在更复杂的群论问题中，Grok 3虽然答对了具体的数量，但在具体群的描述上出现了一个错误。这表明，尽管Grok 3在数学上有优势，但并未与其他顶尖模型拉开显著差距。