近日,埃隆·马斯克旗下的人工智能初创公司xAI推出了更新版的Grok 3大模型。马斯克自豪地宣称,这是“地球上最聪明的人工智能”。根据官方测试结果,Grok 3在多个基准测试中表现出色,包括AIME(美国数学邀请赛)和GPQA(研究生水平的专家推理),超越了GPT-4、Gemini-2Pro、DeepSeek V3和Claude 3.5 Sonnet等竞争对手。
然而,用户和专家对这一说法持有不同意见。一些用户体验后认为,Grok 3的能力并未达到马斯克所宣称的高度。OpenAI应用研究主管Boris Power甚至指出,Grok团队在模型评估中可能存在作弊行为,并表示o3mini在各项评估中均优于Grok 3。
为了验证Grok 3的真实能力,《每日经济新闻》记者进行了多项测试。结果显示,Grok 3确实是一款世界顶级的AI模型,但在性能上并没有与其他顶尖模型拉开显著差距。唯一明显的优势是其极快的响应速度。
从简单的基础问题开始,如“9.9和9.11谁大?” Grok 3轻松回答正确。这类问题虽然简单,但展示了Grok 3的基本计算能力。
马斯克特别强调了Grok 3在“思考模式”下的逻辑推理能力。为了检验这一点,记者使用了一些具有挑战性的问题,例如来自百度贴吧“弱智吧”的逻辑陷阱题目。例如:“用水来兑水,得到的是浓水还是稀水?” Grok 3正确回答并指出了这是一个文字游戏,而其他模型如OpenAI的o1则未能答对。
然而,在更复杂的逻辑推理题中,Grok 3的表现并不突出。例如,在分析实验室动物飞行原因的问题上,Grok 3未能完全给出正确的答案,而R1则成功解决了这个问题。多次测试表明,Grok 3的中文理解和逻辑推理能力虽强,但仍不及某些竞争对手。
在数学方面,Grok 3的表现也并非绝对领先。以一道台球比赛局数计算题为例,Grok 3和OpenAI的o1都给出了正确答案,但Grok 3用时更短。而在更复杂的群论问题中,Grok 3虽然答对了具体的数量,但在具体群的描述上出现了一个错误。这表明,尽管Grok 3在数学上有优势,但并未与其他顶尖模型拉开显著差距。
在编程能力方面,Grok 3的表现略胜一筹。通过复现马斯克在发布会上展示的火星发射计划代码模拟,Grok 3在轨道需求计算上表现出色,尽管动画火箭未能与火星完全重叠。综合评分显示,Grok 3排在首位,但与第二名OpenAI的o1差距不大。
综合所有测试结果,Grok 3确实是一款世界顶尖的AI模型,尤其在响应速度上表现优异。然而,它并未像马斯克所宣称的那样远远超越其他模型。因此,关于Grok 3是否是“地球上最聪明的人工智能”,或许还需要更多时间来验证。
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected])
相关阅读
近期热点
最新资讯