✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
Matt Shumer 有關人工智慧對知識工作者即將產生影響的病毒式博客文章,基於有缺陷的假設
AI影響者馬特·舒默(Matt Shumer)在X平台上撰寫了一篇病毒式博客,談及AI對幾乎所有知識工作的顛覆潛力,並最終實現自動化,過去24小時內已累積超過5500萬次瀏覽。
舒默的五千字長文無疑觸動了許多神經。這篇以喘不過氣的語調撰寫的博客,構建為一個警示,提醒朋友和家人他們的工作即將被徹底顛覆。(《財富》也刊登了舒默文章的改編版本,作為評論文章。)
“2月5日,兩個主要的AI實驗室在同一天發布了新模型:OpenAI的GPT-5.3 Codex,以及Anthropic的Opus 4.6,”他寫道。“然後,一切似乎都點亮了。不是像開關那樣突然……更像是你意識到水已經在你周圍升高,現在已到你的胸口的那一刻。”
舒默表示,程式設計師是所有其他行業的“金絲雀”。“過去一年,科技工作者親眼目睹AI從‘有用的工具’變成‘比我做得更好’的經歷,這正是其他行業即將經歷的事情,”他寫道。“法律、金融、醫療、會計、諮詢、寫作、設計、分析、客戶服務。不是十年後,而是一到五年內。有人說甚至更快。根據我過去幾個月的觀察,我認為‘更快’的可能性更大。”
但儘管這篇文章病毒式傳播,舒默聲稱程式碼的變革是其他領域即將到來的前奏——而且,關鍵是,這將在短短幾年內發生——我認為這是錯的。作為一個曾經寫過一本書(《掌握AI:我們超能力未來的生存指南》)預測AI將在2029年前大規模改變知識工作的人,我仍然相信這一點。我只是認為,舒默所說的程式碼自動化的全面進展,不會像他所說的那樣迅速擴展到其他領域。他可能在方向上是對的,但他文章中那種恐慌的語調讓我覺得是在散播恐懼,並且很大程度上建立在錯誤的假設之上。
推薦影片
並非所有知識工作都像軟體開發一樣
舒默表示,之所以程式碼成為目前自動化代理能力影響最大的領域,是因為AI公司在這方面投入了大量關注。他說,這些前沿模型公司之所以如此,是因為它們將自主軟體開發視為自身業務的關鍵,讓AI模型能幫助構建下一代AI模型。在這一點上,AI公司的押注似乎已經開始獲得回報:過去一年,它們推出更佳模型的速度明顯加快。OpenAI和Anthropic都表示,他們最新AI模型背後的程式碼大多由AI自己撰寫。
舒默認為,雖然程式碼是領先指標,但在其他領域也會出現相同的性能提升,儘管有時比程式碼提升晚約一年。(舒默沒有給出這種延遲存在的合理解釋,雖然他暗示這只是因為AI模型公司優先優化程式碼,然後才逐步改善其他領域的模型。)
但舒默沒有提到的另一個原因是,軟體開發自動化進展較快的原因之一:程式碼具有一些量化的質量指標,而其他領域則沒有。在程式設計中,如果程式碼非常糟糕,根本無法編譯。劣質的程式碼也可能無法通過AI程式碼代理能執行的各種單元測試。(舒默沒有提到,當今的程式碼代理有時會在進行單元測試時撒謊——這也是自動化軟體開發並非萬無一失的原因之一。)
許多開發者表示,AI撰寫的程式碼通常還算過得去,能通過這些基本測試,但仍然不夠好:效率低、缺乏優雅,最重要的是不安全,這會給使用它的組織帶來網路安全風險。但在程式碼方面,仍有一些方法可以建立自主AI代理來解決這些問題。模型可以啟動子代理,檢查它所寫的程式碼是否存在安全漏洞,或評價其效率。由於軟體程式碼可以在虛擬環境中測試,存在許多自動化強化學習的方法——代理通過經驗學習最大化某些獎勵,比如遊戲中的得分——AI公司用來在模型初始訓練後塑造其行為。這意味著,程式碼代理的優化可以在規模上自動進行。
在許多其他知識工作領域,評估質量則要困難得多。法律沒有編譯器,醫療方案沒有單元測試,還沒有一個明確的指標來衡量一個行銷活動在消費者測試前的好壞。在其他領域,收集專業人士對“好”的標準的數據也更困難。AI公司意識到他們在收集這類數據方面存在問題。這也是他們現在花數百萬聘請像Mercor這樣的公司,這些公司又花大錢招聘會計師、金融專家、律師和醫生,幫助提供AI輸出的反饋,以便更好地訓練模型。
確實,有一些基準測試顯示,最新的AI模型在專業任務上取得了快速進展。其中最具代表性的是OpenAI的GDPVal基準。它顯示,前沿模型在從複雜法律工作到製造業再到醫療保健的多個專業任務中,已經達到與人類專家相當的水平。到目前為止,OpenAI和Anthropic上週發布的模型結果尚未公布,但它們的前身Claude Opus 4.5和GPT-5.2在多個任務中都達到了與人類專家相當,並在許多領域超越了人類。
那麼,這是否意味著舒默是對的呢?嗯,不一定。事實上,在許多行業中,“好”的標準是高度主觀的。人類專家對AI輸出評價的相似度約為71%。而OpenAI用於GDPVal的自動評分系統,評價的一致性只有66%。因此,關於AI在專業任務中表現多好的這些頭條數字,可能存在較大的誤差範圍。
企業需要可靠性、治理和可審計性
這種差異正是阻礙企業全面部署自動化流程的原因之一。不僅僅是AI模型的輸出可能有誤。正如GDPVal基準所示,在許多專業背景下,類似自動單元測試的系統可能每三分之一的機會產生錯誤結果。大多數公司無法容忍在三分之一的情況下交付低質量的工作,風險實在太大。有時候,這種風險僅僅是聲譽受損;在其他情況下,可能意味著立即的收入損失。但在許多專業任務中,錯誤決策的後果甚至更嚴重:專業制裁、訴訟、執照吊銷、保險失效,甚至可能導致身體傷害或死亡——有時是大量人群。
更何況,試圖讓人類在流程中審查自動化輸出也是個問題。如今的AI模型確實在變得更好,幻覺(hallucinations)出現的頻率降低。但這只會讓問題變得更糟。隨著AI產生的錯誤越來越少,人類審查員會變得自滿。AI錯誤變得更難察覺。AI擅長自信地犯錯,並呈現出形式完美但內容空洞的結果。這繞過了人類用來校準警覺程度的某些代理標準。AI模型常以人類難以理解的方式失誤,這使得防範AI產生錯誤變得更具挑戰。
因此,直到為更專業領域開發出類似軟體開發中自動化單元測試的工具之前,在許多知識工作場景中部署自動化AI流程都太過危險。AI在很多情況下仍將是人類知識工作者的助手或副駕駛,而非完全自動化。
此外,還有其他原因使得軟體開發者觀察到的自動化在其他知識工作類別中不太可能實現。在許多情況下,企業無法讓AI代理訪問所需的工具和數據系統來執行自動化流程。值得注意的是,目前最熱衷推動AI自動化的多是獨立開發者或AI原生創業公司。這些軟體程式設計師往往不受遺留系統和技術負債的束縛,也較少受到治理和合規系統的限制。
大型組織目前常缺乏將數據源和軟體工具整合的方式。在其他情況下,安全風險和治理問題使得像銀行、金融、法律和醫療這些受監管行業的企業不願意在沒有鐵證保證結果可靠、且有監控、治理和審計流程的情況下進行自動化。這些系統目前仍處於初級階段。直到它們變得更加成熟和穩健之前,不要期待企業能全面自動化產出關鍵或受規範的結果。
批評者指出舒默未誠實面對LLM的失誤
我並不是唯一認為舒默分析有誤的人。紐約大學認知科學榮譽教授、當今大型語言模型的主要懷疑論者之一的加里·馬庫斯(Gary Marcus)告訴我,舒默的X貼文是“武器化的炒作”。他還指出,舒默關於自動化軟體開發的論點也存在問題。
“他沒有提供任何實際數據支持最新的程式碼系統能在不出錯的情況下撰寫完整複雜應用的說法,”馬庫斯說。
他指出,舒默誤解了AI評估組織METR的一個知名基準,該基準試圖衡量AI模型的自主程式碼能力,並暗示AI的能力每七個月就翻一番。馬庫斯指出,舒默沒有提到該基準有兩個準確率閾值,分別是50%和80%。但大多數企業並不感興趣於一個每五次就失敗一次,甚至每五次失敗一次的系統。
“沒有任何AI系統能可靠地完成每五個小時的人類任務,甚至接近這個水平,但你從舒默的博客中幾乎看不到這一點,因為他基本忽略了每天都很常見的幻覺和愚蠢錯誤,”馬庫斯說。
他還指出,舒默沒有引用加州理工學院和斯坦福大學最近的研究,該研究記錄了先進AI模型中的各種推理錯誤。他還提到,舒默之前曾誇大自己訓練的AI模型的能力。“他喜歡大肆宣傳,但這並不代表我們應該認真對待他,”馬庫斯說。
其他批評者則指出,舒默的經濟分析缺乏歷史背景。每一次技術革命長遠來看都創造了比它消除的更多工作崗位。猶他州Libertas研究所的總裁康納·博亞克(Connor Boyack)甚至撰寫了一篇反駁文章,闡述這一觀點。
因此,沒錯,AI可能準備改變工作方式。但某些軟體開發者已開始觀察到的全面任務自動化,對大多數知識工作者,尤其是那些嵌入大型組織中的人來說,實現起來遠比舒默暗示的要長得多。