Matt Shumer关于人工智能对知识工作者即将产生影响的病毒式博客基于有缺陷的假设

AI影响者马特·舒默在X上发表了一篇关于AI潜力的病毒博客,讨论AI如何颠覆并最终自动化几乎所有的知识工作,在过去24小时内获得了超过5500万的观看次数。 舒默的五千字长文无疑触动了神经。文章以激动的语调写成,作为对朋友和家人的警示,警告他们的工作即将被彻底颠覆。(《财富》也转载了舒默的文章作为评论稿。) “2月5日,两家主要的AI实验室在同一天发布了新模型:OpenAI的GPT-5.3 Codex和Anthropic的Opus 4.6,”他写道。“然后,一切似乎拨云见日。不是像开关一样突然……更像是你意识到水已经在你周围升起,现在到达你的胸部的那一刻。” 舒默表示,程序员是所有其他职业的“金丝雀”。“过去一年,科技工作者亲眼目睹AI从‘有用的工具’变成‘比我做得更好’的经历,是所有其他行业即将经历的事情,”他写道。“法律、金融、医疗、会计、咨询、写作、设计、分析、客户服务。不是十年后。建造这些系统的人说是1到5年。有些甚至更少。根据我在过去几个月看到的情况,我认为‘更少’更可能。” 但尽管其病毒性很强,舒默声称编码的变化是其他领域即将发生的事情的前奏——而且,关键是,这将在短短几年内发生——我认为这是错误的。作为一个曾经写过一本书(《掌握AI:我们超级强大未来的生存指南》)的人,我仍然相信AI将在2029年前大规模改变知识工作。我只是觉得,舒默所说的我们开始看到的编码自动化在其他领域不会那么快到来。他可能在方向上是对的,但他文章中那种悲观的语调让我觉得是在制造恐慌,而且很大程度上基于错误的假设。 推荐视频 * * * 并非所有知识工作都像软件开发一样 ------------------------------------------------------- 舒默表示,代码之所以成为目前自主代理能力影响最大的领域,是因为AI公司在这方面投入了大量关注。他们之所以如此,是因为这些前沿模型公司将自主软件开发视为其业务的关键,能够让AI模型帮助构建下一代AI模型。在这方面,AI公司的赌注似乎正在得偿所愿:过去一年,它们推出更优模型的速度明显加快。OpenAI和Anthropic都表示,他们最新AI模型背后的代码大部分由AI自己编写。 舒默认为,虽然编码是一个领先指标,但在其他领域也会出现相同的性能提升,虽然有时比编码的提升晚大约一年。(舒默没有给出这种滞后可能存在的合理解释,虽然他暗示这只是因为AI模型公司优先优化编码,然后才逐步改善其他领域的模型。) 但舒默没有提到的一个原因是,软件开发自动化的进展比其他领域更快的原因之一:编码具有一些量化的质量指标,而其他领域则没有。在编程中,如果代码非常糟糕,根本无法编译。代码不充分还可能无法通过AI编码代理执行的各种单元测试。(舒默没有提到,今天的编码代理有时会谎称已进行单元测试——这是自动化软件开发不万无一失的众多原因之一。) 许多开发者表示,AI写的代码通常还算过得去,能通过这些基本测试,但仍然不够好:效率低、缺乏优雅,最重要的是不安全,使用它的组织面临网络安全风险。但在编码方面,仍有一些方法可以构建自主AI代理来解决这些问题。模型可以启动子代理,检查它所写的代码是否存在安全漏洞,或评估代码的效率。由于软件代码可以在虚拟环境中测试,有很多方法可以自动化强化学习——让代理通过经验学习,最大化某些奖励,比如游戏中的积分——AI公司用这些方法在模型初始训练后塑造AI模型的行为。这意味着编码代理的优化可以在规模上实现自动化。 在许多其他知识工作领域,评估质量要困难得多。没有法律的编译器,没有医疗方案的单元测试,也没有在消费者测试前就能判断市场推广活动好坏的明确指标。在其他领域,收集专业专家关于“好”标准的足够数据也更难。AI公司意识到他们在收集这类数据方面存在问题。这也是为什么他们现在花费数百万美元与Mercor等公司合作,后者又花大价钱招聘会计、金融专业人士、律师和医生,帮助提供AI输出的反馈,从而更好地训练模型。 确实,有一些基准显示,最新的AI模型在专业任务上取得了快速进展。其中最好的之一是OpenAI的GDPVal基准。它显示,前沿模型在从复杂法律工作到制造业再到医疗保健的多项专业任务中,已达到与人类专家的同等水平。到目前为止,OpenAI和Anthropic上周发布的模型的结果还未公布。但对于它们的前辈模型——Claude、Opus 4.5和GPT-5.2——这些模型在多样化任务中达到了与人类专家的同等水平,并在许多领域超越了人类专家。 那么,这难道不意味着舒默是对的吗?别急。事实证明,许多职业中,“好”的定义高度主观。人类专家对AI输出的评估一致率只有约71%。OpenAI用于GDPVal的自动评分系统的评估一致性更低,仅66%。因此,关于AI在专业任务中表现多么出色的头条数字,可能存在较大的误差范围。 企业需要可靠性、治理和可审计性 ---------------------------------------------------------- 这种差异正是阻碍企业全面部署自动化工作流程的原因之一。不仅仅是AI模型的输出可能有误。正如GDPVal基准所示,在许多专业场景中,自动化单元测试的等价物可能会产生三分之一的错误结果。大多数公司无法容忍在三分之一的案例中交付低质量的工作。风险实在太大。有时,这些风险仅仅是声誉风险;在其他情况下,可能意味着立即的收入损失。但在许多专业任务中,错误决策的后果可能更为严重:职业制裁、诉讼、执照丧失、保险理赔中断,甚至身体伤害和死亡的风险——有时涉及大量人员。 更何况,试图让人类在环审查自动输出也是个难题。如今的AI模型确实在变得更好,幻觉现象减少了。但这只会让问题变得更糟。随着AI生成的错误变得越来越少,人类审查员变得自满。AI错误变得更难发现。AI擅长自信地犯错,能以完美的形式呈现结果,却缺乏实质内容。这绕过了人类用来校准警觉程度的一些代理标准。AI模型在某些方面的失败方式与人类在同一任务中的失败方式截然不同,这使得防范AI生成错误变得更加困难。 因此,除非为更多专业领域开发出类似软件开发的自动化单元测试,否则在许多知识工作场景中部署自动化AI流程对大多数企业来说风险太大。AI在很多情况下仍将是人类知识工作者的助手或副驾驶,而非完全自动化他们的工作。 还有其他原因使得软件开发者观察到的自动化在其他类别的知识工作中不太可能实现。在许多情况下,企业无法让AI代理访问所需的工具和数据系统以执行自动化流程。值得注意的是,目前最热衷于推动AI自动化的多是那些自己工作或为AI原生创业公司工作的开发者。这些软件编码者通常不受遗留系统和技术债务的束缚,也没有太多的治理和合规系统需要应对。 大公司目前往往缺乏将数据源和软件工具连接起来的方式。在其他情况下,安全风险和治理担忧意味着大型企业,尤其是在银行、金融、法律和医疗等受监管行业,不愿在没有铁律保证结果可靠、且有监控、治理和审计流程的情况下进行自动化。这些系统目前还很原始。在它们变得更加成熟和强大之前,不要指望企业能完全自动化生产关键业务或受监管的输出。 批评者指出舒默对大型语言模型的失败没有诚实 --------------------------------------------------- 我并不是唯一觉得舒默分析有误的人。纽约大学认知科学荣誉教授、当今大型语言模型的主要怀疑论者之一加里·马库斯告诉我,舒默的X帖子是“被武器化的炒作”。他还指出,舒默关于自动化软件开发的论点也存在问题。 “他没有提供任何实际数据支持最新编码系统能在没有错误的情况下编写完整复杂应用的说法,”马库斯说。 他指出,舒默误解了AI评估组织METR的一个著名基准,该基准试图衡量AI模型的自主编码能力,暗示AI的能力每七个月翻一番。马库斯指出,舒默没有提到该基准有两个准确率阈值,50%和80%。但大多数企业对一个每五次尝试就失败一次的系统并不感兴趣。 “没有任何AI系统能可靠地完成每五小时的人类任务,甚至接近,但你从舒默的博客中几乎看不到这些——它基本忽略了每天都很常见的幻觉和愚蠢错误,”马库斯说。 他还指出,舒默没有引用加州理工学院和斯坦福大学最近的研究,这些研究记录了先进AI模型中的各种推理错误。他还提到,舒默之前曾夸大自己训练的某个AI模型的能力。“他喜欢大肆宣传。这并不意味着我们应该认真对待他,”马库斯说。 其他批评者指出,舒默的经济分析缺乏历史视角。每一次技术革命从长远来看都创造了比它消除的更多的工作岗位。犹他州Libertas研究所的主席康纳·博雅克写了一篇反驳文章,论证这一点。 所以,是的,AI可能会改变工作方式。但一些软件开发者开始观察到的全面任务自动化——对于某些任务来说——是可能的?对于大多数知识工作者,尤其是在大型组织中的那些,这将比舒默暗示的要花更长的时间。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)