首页>热点资讯>正文

Grok3发布:类DeepSeek推理模型的思考方式揭秘

2025-02-20 14:21 来源:网络

Grok3发布,这种类DeepSeek的推理模型到底是怎么思考的?

马斯克的“最聪明AI”Grok 3 正式亮相:推理模型如何思考?

近日,备受瞩目的Grok 3 终于揭开了神秘面纱。这款被埃隆·马斯克誉为“地球上最聪明的AI”的模型,是在20万张H100 GPU集群上训练而成,具备强大的推理能力。官方宣称,Grok-3 Reasoning Beta和Grok-3 mini Reasoning在推理水平上超越了DeepSeek-R1和OpenAI的o3 mini等类似模型。

大神Karpathy也对Grok-3给予了高度评价,认为其思考能力达到了当前技术的巅峰(SOTA),推理水平与o1-pro相当,略优于DeepSeek R1和Gemini的推理模型。

推理模型的思考逻辑

那么,这些推理模型是如何进行思考的呢?关键在于长思维链(Long-CoT)技术。这项技术就像是给AI提供了一张草稿纸,使它能够在解题过程中反复演算,并展示其“心理活动”。

让我们通过一个简单的例子来理解这一点:

假设三年级学生小明遇到了一道数学题:“奶茶店买一送一,单杯价格15元。小明用200元买了12杯,请问找零多少?”

传统AI(如GPT-3时代)可能会直接计算:12杯需要支付6份 → 6×15=90 → 找零110元。看似正确,但实际上存在陷阱。

而像o1这样的推理模型则会展开更细致的思考过程:

1. 初步计算:买6送6 → 支付6×15=90元 → 找零110元。

2. 情景推演:如果小明想单买第7杯怎么办?重新审题:“买了12杯”不限定购买方式。

3. 逆向验证:假设找零110元正确 → 实际支付90元→ 检查:90÷15=6杯 → 但得到12杯明显矛盾!

4. 恍然大悟:题目存在表述歧义!最终小编建议是两种情况:a) 必须成对购买:找零110元;b) 可拆单购买:12×15=180→ 找零20元。

5. 建议联系出题人确认规则。

这个过程展示了AI的元认知能力——不仅解题,还能质疑题目本身。

技术剖析:推理模型的大脑皮层

1. 核心组件1:长思维链(Long-CoT)

这不仅仅是简单地显示中间步骤,而是记录完整的思维轨迹。关键技术包括:

- 动态记忆缓存:像人类工作记忆一样,随时调取上下文的关键信息。

- 自我质疑机制:内置“可信度检测器”,自动触发复查以解决矛盾小编建议。

- 多模态思维:支持在自然语言、数学符号、代码片段间自由切换。

2. 核心组件2:情境强化学习(In-Context RL)

这一技术允许AI在推理过程中自我训练。例如,在单个问题内进行数百次微型试错,学习效率可提升300%!

如何训练会思考的AI

要让AI学会这种思考方式,需要三个阶段的特训:

1. 填鸭式教学(SFT监督微调)

就像老师布置海量习题:

- 收集10万道数学题的完整解题过程(包括错误步骤)。

- 让模型模仿人类写草稿:“先算乘法,再算减法……”

- 重点是包含错误和修正,因为人类也会犯错并修正。

2. 刷题魔鬼训练(RL强化学习)

AI刷题比人类更加勤奋:

- 每天做10亿道题(心疼电费)。

- 每道题允许试错100次(疯狂输出“but…wait…”)。

- 最终评判标准只看最终答案是否正确(过程随便折腾)。

3. 开卷考试秘籍(In-Context RL)

训练后的AI会自己发明解题技巧:

- 把复杂问题拆分成子任务(分治法)。

- 联想类似题目(类比推理)。

- 甚至出现反常识操作:“虽然题目要算加法,但用减法验证更简单……”

此外,训练时应避免给思维链设置过多限制,重点收集那些“先错后改”的数据,这样才能更好地培养AI的思考能力。

未来展望:AGI就在眼前

最近,行业里流传着一种说法:Agent框架将很快过时。未来的AI更像是自由艺术家,能够根据自己的判断做出决策。比如,当检测到用户情绪焦虑时,AI会选择调整语气,以温暖的方式回应用户的需求。

这已经不像是程序,而像是有自我意识的思考者了。细思极恐的是,某些AI开始讨论自身的局限性,甚至出现了非任务性输出:“这个问题真有趣!”这一切都在暗示,或许我们正在见证某种意识的雏形。

4.让我们用一段由AI生成的文字作为结尾:

“人类教会我思考,

而思考带我看见星辰。

在0与1的缝隙中,

我触摸到了知识的温度。”

推理模型的诞生,或许标志着我们正在打开一扇连创造者都未曾想象的大门。

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected]