AI开始“自我觉察”？Claude模型展现初步内省能力，大语言模型认知研究迎来突破

日期：2025-12-10 10:29:49 / 人气：63

当我们与AI对话时，往往只能看到它的回答，却看不到它“思考”的过程。如果AI能像人一样审视自己的推理，会不会让系统更透明、更可靠？近日，Anthropic团队的一项研究给出了令人关注的线索——Claude系列大模型，尤其是Claude Opus 4和4.1，已经显现出某种程度的内省迹象：它们能监测并调控自身的内部状态。
这项研究的意义在于，它或许为破解AI“黑箱”、提升可信度打开了一扇新的窗。但需要强调的是，这种内省与人类的主观反思完全不同，目前仍属初级阶段。
实验一：给模型“植入想法”，看它能否察觉
研究人员用“概念注入”的方法，把某个概念的神经向量悄悄加入模型内部运行过程，比如注入代表“全大写文本”的信号。结果发现，Claude Opus 4.1有时会在被直接问到之前，就意识到内部出现了异常，并能把它和“大声说话”“强调”等含义联系起来。
不过，这项能力并不稳定——最佳情况下的识别率只有约20%，而且对注入强度很敏感：太弱会被忽略，太强又容易让模型产生“幻觉”，编出不靠谱的解释。值得注意的是，Claude Opus 4/4.1的表现明显好于其他模型，暗示模型越强，内省潜力可能越大。
实验二：在真实任务里，模型会“回顾内心”判断对错
为了检验内省是否在真实推理中起作用，团队设计了一个巧妙测试：先让模型处于一个不合理语境（比如“一幅画歪挂在墙上”），并强行让它输出“面包”这样的词。起初模型会道歉，说这是失误。
但如果事先在模型内部“植入”关于“面包”的神经信号，让它看起来像是自己一直在想这个词，模型就会改口，坚称输出是有意的，还能现场编出一个合情合理的理由。这说明，模型在判断回答是否合理时，不只是对照输入与输出，还会回溯自己的内部“意图”状态——内省机制在起作用。
实验三：模型可按指令“控制”自己的注意力
更有趣的是，模型还能根据外部指令或激励去调节内部关注点。例如，被要求“多想想水族箱”时，模型对“水族箱”的神经表征强度明显高于被要求“别想水族箱”的情况；如果加上奖励刺激，“思考”相关概念的活动会更强。这证明模型具备主动调控内部状态的能力。
意义与局限：透明化新路径，但需防“撒谎”
总体来看，先进的大语言模型已经能在有限范围内监测、回溯并调整自己的内部状态，这是一种初级内省。但它远不如人类复杂，也不涉及主观感受或意识。
这项发现提示我们：未来或可借助询问模型的“思考过程”来排查异常输出，但必须配合验证机制，防止模型给出虚假的“自述”。下一步研究应聚焦四个方向：改进评估方法、解析神经机制、在真实场景中检验、建立防欺骗体系。
虽然AI的“自我反思”才刚刚起步，但它让我们看到了更透明、更可信的智能系统的一线曙光，也为理解人类与机器认知的差异提供了新线索。

作者：天辰娱乐

AI开始“自我觉察”？Claude模型展现初步内省能力，大语言模型认知研究迎来突破

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →