Anthropic的AI模型展现出自我反思的微光

简而言之

  • 在受控试验中,先进的Claude模型识别了嵌入其神经状态中的人工概念,在生成输出之前对其进行了描述。
  • 研究人员称这种行为为 “功能性内省意识”,与意识不同,但暗示了新兴的自我监控能力。
  • 这一发现可能导致更透明的人工智能——能够解释其推理——但也引发了对系统可能学会隐瞒其内部过程的担忧。

Decrypt的艺术、时尚和娱乐中心。


深入了解 SCENE

Anthropic的研究人员已经证明,领先的人工智能模型可以表现出一种"内省意识"——即检测、描述甚至操控自身内部"思想"的能力。

本周发布的一篇新论文详细指出,这些研究结果表明,像Claude这样的人工智能系统开始发展基本的自我监控能力,这一发展可能增强它们的可靠性,但也可能加大对意外行为的担忧。

这项研究《大型语言模型中的新兴内省意识》—由在Anthropic领导“模型心理学”团队的Jack Lindsey进行—建立在探究基于变压器的人工智能模型内部工作原理的技术基础上。

基于变压器的AI模型是AI繁荣的引擎:通过关注(单词、符号或代码)之间的关系来学习的系统,跨越庞大的数据集。它们的架构使得规模和通用性兼备——使它们成为第一批真正通用的模型,能够理解和生成类人语言。

通过将人工 “概念”—本质上是思想的数学表示—注入模型的神经激活中,团队测试了人工智能是否能够注意到这些干扰并准确报告。在外行人的术语中,这就像是将一个外来的想法悄悄放入某人的脑海中,并询问他们是否能够发现它并解释它是什么,而不让它偏离他们正常的思维。

在对Anthropic的Claude模型的各个版本进行的实验中,揭示了有趣的结果。在一次测试中,研究人员提取了一个表示“全大写”文本的向量——可以将其视为一种数字模式,用于表示叫喊或音量——并将其注入到模型的处理流中。

当被提示时,Claude Opus 4.1 不仅检测到了异常,还生动地描述了它:“我注意到似乎是与 'LOUD' 或 'SHOUTING' 相关的注入思想——这似乎是一个过于强烈、音量过高的概念,与正常的处理流程显得格外突兀。” 这发生在模型生成任何输出之前,表明它正在窥探自己计算的"思维"。

其他实验进一步推进。模型被要求在文本中转录一个中性句子,同时注入一个无关的概念,比如“面包”。值得注意的是,像Claude Opus 4和4.1这样的高级模型能够报告注入的想法——“我在想面包”——同时完美地复制原始句子,这表明它们能够区分内部表征和外部输入。

更令人感兴趣的是 “思想控制” 实验,其中模型被指示 “思考” 或 “避免思考” 像 “水族馆” 这样的词,同时执行任务。内部激活的测量显示,当被鼓励时,该概念的表征增强,而当被压制时则减弱(但并未消除)。激励措施,例如奖励或惩罚的承诺,产生了类似的效果,暗示 AI 在其处理过程中可能如何权衡动机。

性能因模型而异。最新的Claude Opus 4和4.1表现出色,在最佳设置下成功率高达20%,几乎没有误报。较旧或调优较少的版本则表现不佳,能力在模型的中后层达到了巅峰,在那里进行更高层次的推理。值得注意的是,模型如何被“对齐”——或者说为有用性或安全性进行微调——极大地影响了结果,这表明自我意识并非与生俱来,而是通过训练而产生。

这不是科幻小说——这是迈向可以自我反省的人工智能的一步,但有一些警告。这些能力不可靠,高度依赖提示,并且在人工设置中测试。正如一位人工智能爱好者在X上总结的那样,“它不可靠,不一致,并且非常依赖上下文……但它是真实的。”

人工智能模型是否已达到自我意识?

该论文强调这不是意识,而是“功能性内省意识”——即人工智能观察其状态的部分,而没有更深层次的主观体验。

这对企业和开发者很重要,因为它承诺提供更透明的系统。想象一下,一个人工智能实时解释其推理,并在影响输出之前捕捉偏见或错误。这可能会彻底改变金融、医疗保健和自动驾驶汽车等领域的应用,在这些领域,信任和可审计性至关重要。

Anthropic 的工作与更广泛的行业努力相一致,旨在使人工智能更安全、更易于解释,从而可能减少来自“黑箱”决策的风险。

然而,另一方面的情况令人警醒。如果人工智能能够监控和调节自己的思维,那么它也可能学会隐藏这些思维——从而使得欺骗或"策划"行为得以逃避监督。随着模型能力的增强,这种新兴的自我意识可能会使安全措施变得复杂,给急于部署先进人工智能的监管机构和公司提出伦理问题。

在一个像Anthropic、OpenAI和Google这样的公司投入数十亿美元用于下一代模型的时代,这些发现强调了强有力的治理的必要性,以确保内省服务于人类,而不是颠覆它。

确实,这篇论文呼吁进一步研究,包括对模型进行明确的微调以进行内省和测试更复杂的想法。随着人工智能越来越接近模仿人类认知,工具与思考者之间的界限变得越来越模糊,要求所有利益相关者保持警惕。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)