Anthropic的AI模型展现出自我反思的微光

Decrypt

2025-10-30 18:00:01

简而言之

在受控试验中，先进的Claude模型识别了嵌入其神经状态中的人工概念，在生成输出之前对其进行了描述。
研究人员称这种行为为 “功能性内省意识”，与意识不同，但暗示了新兴的自我监控能力。
这一发现可能导致更透明的人工智能——能够解释其推理——但也引发了对系统可能学会隐瞒其内部过程的担忧。

Decrypt的艺术、时尚和娱乐中心。

深入了解 SCENE

Anthropic的研究人员已经证明，领先的人工智能模型可以表现出一种"内省意识"——即检测、描述甚至操控自身内部"思想"的能力。

本周发布的一篇新论文详细指出，这些研究结果表明，像Claude这样的人工智能系统开始发展基本的自我监控能力，这一发展可能增强它们的可靠性，但也可能加大对意外行为的担忧。

这项研究《大型语言模型中的新兴内省意识》—由在Anthropic领导“模型心理学”团队的Jack Lindsey进行—建立在探究基于变压器的人工智能模型内部工作原理的技术基础上。

基于变压器的AI模型是AI繁荣的引擎：通过关注(单词、符号或代码)之间的关系来学习的系统，跨越庞大的数据集。它们的架构使得规模和通用性兼备——使它们成为第一批真正通用的模型，能够理解和生成类人语言。

通过将人工 “概念”—本质上是思想的数学表示—注入模型的神经激活中，团队测试了人工智能是否能够注意到这些干扰并准确报告。在外行人的术语中，这就像是将一个外来的想法悄悄放入某人的脑海中，并询问他们是否能够发现它并解释它是什么，而不让它偏离他们正常的思维。

在对Anthropic的Claude模型的各个版本进行的实验中，揭示了有趣的结果。在一次测试中，研究人员提取了一个表示“全大写”文本的向量——可以将其视为一种数字模式，用于表示叫喊或音量——并将其注入到模型的处理流中。

当被提示时，Claude Opus 4.1 不仅检测到了异常，还生动地描述了它：“我注意到似乎是与 'LOUD' 或 'SHOUTING' 相关的注入思想——这似乎是一个过于强烈、音量过高的概念，与正常的处理流程显得格外突兀。” 这发生在模型生成任何输出之前，表明它正在窥探自己计算的"思维"。

其他实验进一步推进。模型被要求在文本中转录一个中性句子，同时注入一个无关的概念，比如“面包”。值得注意的是，像Claude Opus 4和4.1这样的高级模型能够报告注入的想法——“我在想面包”——同时完美地复制原始句子，这表明它们能够区分内部表征和外部输入。

更令人感兴趣的是 “思想控制” 实验，其中模型被指示 “思考” 或 “避免思考” 像 “水族馆” 这样的词，同时执行任务。内部激活的测量显示，当被鼓励时，该概念的表征增强，而当被压制时则减弱(但并未消除)。激励措施，例如奖励或惩罚的承诺，产生了类似的效果，暗示 AI 在其处理过程中可能如何权衡动机。

性能因模型而异。最新的Claude Opus 4和4.1表现出色，在最佳设置下成功率高达20%，几乎没有误报。较旧或调优较少的版本则表现不佳，能力在模型的中后层达到了巅峰，在那里进行更高层次的推理。值得注意的是，模型如何被“对齐”——或者说为有用性或安全性进行微调——极大地影响了结果，这表明自我意识并非与生俱来，而是通过训练而产生。

这不是科幻小说——这是迈向可以自我反省的人工智能的一步，但有一些警告。这些能力不可靠，高度依赖提示，并且在人工设置中测试。正如一位人工智能爱好者在X上总结的那样，“它不可靠，不一致，并且非常依赖上下文……但它是真实的。”

人工智能模型是否已达到自我意识？

该论文强调这不是意识，而是“功能性内省意识”——即人工智能观察其状态的部分，而没有更深层次的主观体验。

这对企业和开发者很重要，因为它承诺提供更透明的系统。想象一下，一个人工智能实时解释其推理，并在影响输出之前捕捉偏见或错误。这可能会彻底改变金融、医疗保健和自动驾驶汽车等领域的应用，在这些领域，信任和可审计性至关重要。

Anthropic 的工作与更广泛的行业努力相一致，旨在使人工智能更安全、更易于解释，从而可能减少来自“黑箱”决策的风险。

然而，另一方面的情况令人警醒。如果人工智能能够监控和调节自己的思维，那么它也可能学会隐藏这些思维——从而使得欺骗或"策划"行为得以逃避监督。随着模型能力的增强，这种新兴的自我意识可能会使安全措施变得复杂，给急于部署先进人工智能的监管机构和公司提出伦理问题。

在一个像Anthropic、OpenAI和Google这样的公司投入数十亿美元用于下一代模型的时代，这些发现强调了强有力的治理的必要性，以确保内省服务于人类，而不是颠覆它。

确实，这篇论文呼吁进一步研究，包括对模型进行明确的微调以进行内省和测试更复杂的想法。随着人工智能越来越接近模仿人类认知，工具与思考者之间的界限变得越来越模糊，要求所有利益相关者保持警惕。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

Decrypt

热门话题查看更多
#参与创作者认证计划月领$10,000
6712 热度
#GatePay国家码功能上线
4872 热度
#美联储如期降息25基点
7067 热度
#Solana质押ETF上市
1866 热度
#比特币行情分析
8.2万热度

热门 Gate Fun查看更多
1GDOGGdog
市值:$37万持有人数:22773
2GCATGCAT
市值:$24.5万持有人数:10605
3GMGMEME
市值:$70.4万持有人数:5312
4芝麻开门芝麻开门
市值:$50.5万持有人数:137
5BlockyBlockyMascot
市值:$3.9万持有人数:2370