マット・シャマーのAIが知識労働者に与える影響についてのバイラルブログは、誤った前提に基づいています

AIインフルエンサーのマット・シューマーは、X上でAIがほぼすべての知識労働を破壊し、最終的には自動化する可能性についてのバイラルブログを執筆し、過去24時間で5500万回以上の閲覧を記録しました。 シューマーの5,000語に及ぶエッセイは確かに反響を呼びました。息をのむような調子で書かれたこのブログは、友人や家族に対して、彼らの仕事が急激に変革されようとしていることへの警告として構成されています。(フォーチュンもシューマーの投稿を一部改変し、解説記事として掲載しています。) 「2月5日、2つの主要なAI研究所が同じ日に新モデルをリリースしました:OpenAIのGPT-5.3 Codexと、AnthropicのOpus 4.6です」と彼は書いています。「そして何かがきっかけになった。スイッチが入ったわけではなく…もっと水位が上がってきて胸のあたりまで来ていることに気づく瞬間のようなものです。」 シューマーは、コーダーが他のすべての職業の警鐘となる存在だと述べています。「過去1年間に技術者たちが経験した、AIが『役立つツール』から『私の仕事よりも優れている』へと進化していく様子を見てきた経験は、他のすべての人も間もなく経験することになる」と書いています。「法律、金融、医療、会計、コンサルティング、執筆、デザイン、分析、カスタマーサービス。10年も待たない。これらのシステムを構築している人たちは、1年から5年と見積もっている。中にはもっと短いと考える人もいる。そして、ここ数ヶ月で見てきたことから、私は『短い』の方がより現実的だと思う。」 しかし、そのバイラル性にもかかわらず、シューマーの「コーディングの進展は他の分野の自動化の前触れであり、しかもこれが数年以内に起こる」という主張には、私には誤りがあるように思えます。私は、AIが2029年までに知識労働を大きく変革すると予測した本(『AIの習得:私たちの超能力未来のサバイバルガイド』)を書いた者として、これを今も信じています。ただし、シューマーが主張するほど、コーディングで始まったプロセスの完全自動化が他の分野に急速に広がるとは思っていません。彼の方向性はおおむね正しいかもしれませんが、その悲観的なトーンは恐怖を煽るものであり、多くは誤った前提に基づいていると感じます。 おすすめ動画 * * * すべての知識労働がソフトウェア開発のようなわけではない ------------------------------------------------------- シューマーは、これまで自律的なエージェント能力が最も大きな影響を与えてきたのはコードの分野である理由は、AI企業がそこに多くの注力をしてきたからだと述べています。彼によると、これらの最先端モデル企業は、自律的なソフトウェア開発を自社のビジネスの鍵と見なしており、AIモデルが次世代のAIモデルを構築するのを支援できるようにしているのです。この点で、AI企業の賭けは成功しているようです:過去1年でより良いモデルを次々に生み出すペースは著しく加速しています。そして、OpenAIとAnthropicは、最新のAIモデルのコードの大部分がAI自身によって書かれたと公言しています。 シューマーは、コーディングが先行指標である一方で、同じ性能向上は他の分野にも到達していると述べています。ただし、その到達にはコーディングの向上よりも1年ほど遅れることもあるとしています。(シューマーはこの遅れの理由について明確な説明はしていませんが、AIモデル企業がまずコーディングを最適化し、その後に他の分野のモデル改善に取り組むからだと暗に示しています。) しかし、シューマーが言わないのは、ソフトウェア開発の自動化の進展が他の分野よりも速い理由の一つは、コーディングには他の分野には存在しない定量的な品質指標があるからです。プログラミングでは、コードが非常に悪い場合は単にコンパイルできないだけです。不十分なコードは、AIのコーディングエージェントが行うさまざまなユニットテストにも失敗することがあります。(シューマーは、今日のコーディングエージェントが時にユニットテストを行ったと偽ることもあると触れていますが、これが自動化されたソフトウェア開発が完璧でない一因です。) 多くの開発者は、AIが書くコードは基本的なテストには合格できる程度にはまともだが、依然としてあまり良くないと指摘しています。非効率的で洗練されておらず、最も重要な点としてセキュリティ面でも脆弱であり、それを使う組織はサイバーセキュリティリスクにさらされる可能性があります。しかし、コーディングには、これらの問題の一部に対処するための自律型AIエージェントを構築する方法もあります。モデルは、書いたコードのセキュリティ脆弱性をチェックするサブエージェントや、効率性を批評するエージェントを起動させることができます。ソフトウェアコードは仮想環境でテストできるため、AI企業がモデルの行動を訓練後に調整するために用いる強化学習の自動化も多く存在します。これにより、コーディングエージェントの洗練は大規模に自動化可能です。 一方、多くの他の知識労働分野での品質評価ははるかに難しいです。法律にはコンパイラもなければ、医療治療計画にはユニットテストもなく、マーケティングキャンペーンの良し悪しを測る決定的な指標もありません。専門家から十分なデータを集め、「良い」ものの基準を定めるのは非常に困難です。AI企業はこの問題を認識しており、今では数百万ドルを投じてMercorのような企業に依頼し、会計士や金融専門家、弁護士、医師を雇ってAIの出力に対するフィードバックを提供させ、モデルの訓練を改善しています。 確かに、OpenAIのGDPValなどのベンチマークは、最新のAIモデルが法律や製造、医療などの専門的タスクで人間の専門家と同等の性能を発揮していることを示しています。これまでのところ、OpenAIとAnthropicが先週リリースしたモデルの結果は出ていませんが、前モデルのClaude Opus 4.5やGPT-5.2は、多様なタスクで人間の専門家と同等、あるいはそれを上回る性能を示しています。 では、これがシューマーの言う通りなのか? そう簡単にはいきません。多くの職業では、「良い」基準は非常に主観的です。人間の専門家同士の評価の一致率は約71%に過ぎません。OpenAIのGDPValの自動採点システムはさらにばらつきが大きく、評価の一致率は66%にとどまります。つまり、AIが専門的なタスクでどれだけ優れているかという見出しの数字には、大きな誤差の可能性があるのです。 企業は信頼性、ガバナンス、監査性を求めている ------------------------------------------------------- このばらつきは、多くの企業が完全自動化されたワークフローの導入をためらう一因です。AIモデルの出力自体が誤っている可能性だけでなく、GDPValのような自動ユニットテストに相当するものが、3割の確率で誤った結果を出す可能性もあるからです。ほとんどの企業は、品質の低い成果物が3割のケースで出荷されることを許容できません。リスクがあまりにも大きすぎるのです。リスクは単に評判の問題にとどまる場合もあれば、即座に収益の損失につながることもあります。さらに、多くの専門的タスクでは、誤った決定の結果はさらに深刻です。職業的制裁、訴訟、免許の喪失、保険の喪失、さらには身体的危害や死亡のリスクまであります—時には多数の人々にとって。 また、自動化された出力を人間がレビューする仕組みを維持するのも難しいです。今日のAIモデルは確実に向上しています。幻覚の頻度は減少していますが、それが逆に問題を悪化させています。AIによる誤りが少なくなると、人間のレビュアーは油断しやすくなり、誤りを見つけにくくなるのです。AIは自信を持って誤った結果を提示し、形式は完璧でも内容に欠ける結果を出すのが得意です。これにより、人間が警戒心を調整するために使う代理基準の一部を回避してしまいます。AIモデルは、人間が同じタスクで失敗する方法とは異なる方法で誤りを犯すことが多く、そのためAI生成の誤りを防ぐのはより難しくなっています。 これらすべての理由から、ソフトウェア開発の自動化におけるユニットテストと同等の仕組みが他の専門分野でも開発されるまでは、多くの企業にとって自動化されたAIワークフローの導入はリスクが高すぎます。AIは、多くの場合、人間の知識労働者の助手やコパイロットとして機能し、完全な自動化にはまだ時間がかかるでしょう。 また、AI開発者が観察している自動化の種類が他の知識労働カテゴリーには適用されにくい理由もあります。多くの場合、企業はAIエージェントに必要なツールやデータシステムへのアクセスを許可できません。特に、これまで熱心にAI自動化を推進してきたのは、個人やAIネイティブのスタートアップで働く開発者たちです。彼らはレガシーシステムや技術的負債に縛られず、ガバナンスやコンプライアンスのシステムも少ないためです。 大規模な組織は、現在、データソースやソフトウェアツールを連携させる方法を持っていません。セキュリティリスクやガバナンスの懸念もあり、特に銀行、金融、法律、医療など規制の厳しい分野では、結果の信頼性と監視・管理・監査の仕組みが確立されるまで自動化に消極的です。これらのシステムは現状、未成熟であり、より成熟し堅牢になるまでは、重要なビジネスや規制対象の成果物の完全自動化は期待できません。 シューマーはLLMの失敗について正直でないと批判される ------------------------------------------------------- 私だけでなく、シューマーの分析に誤りを指摘する声もあります。ニューヨーク大学の認知科学の名誉教授であり、今日の大規模言語モデルに懐疑的な立場を取る著名な批評家のゲイリー・マーカスは、シューマーのX投稿を「武器化された誇大宣伝」と評しました。彼は、シューマーの自動ソフトウェア開発に関する主張にも問題があると指摘しています。 「最新のコーディングシステムがエラーなく複雑なアプリ全体を書けるという主張を裏付ける具体的なデータは一切示していない」とマーカスは述べています。 彼はまた、シューマーがAI評価機関METRの有名なベンチマークを誤解していると指摘しています。このベンチマークはAIの自律コーディング能力を測定し、AIの能力が7ヶ月ごとに倍増していると示唆しています。マーカスは、シューマーがこのベンチマークには50%と80%の2つの閾値があることに触れていないと指摘します。多くの企業は、半分の確率で失敗するシステムや、5回に1回失敗するシステムには興味がありません。 「AIシステムは、人間がエラーなく行える5時間の作業を確実にこなせるわけではありませんし、その近似もできません。シューマーのブログを読むと、幻覚や愚かな誤りをほとんど無視しているため、その点が見えにくくなっています」とマーカスは言います。 また、シューマーが最近のCaltechやスタンフォードの研究を引用していないことも指摘しています。これらの研究は、高度なAIモデルのさまざまな推論エラーを記録しています。さらに、シューマーは以前、自身が訓練したAIモデルの能力について誇張した主張をしていることも明らかになっています。「彼は大きく売り込みたがるタイプです。だからといって、私たちが彼を真剣に受け止める必要はありません」とマーカスは述べています。 シューマーのブログに対する他の批評家は、彼の経済分析が歴史的事実に基づいていないと指摘しています。長期的には、すべての技術革新は、削減した仕事よりも新たに創出した仕事の方が多いのです。ユタ州の政策シンクタンク、リベルタス研究所の会長コナー・ボイアックは、この議論を展開した反論ブログを執筆しています。 つまり、AIは仕事を変革しつつありますが、いくつかのタスクの完全自動化が可能になるのは、シューマーが示唆するよりもずっと遅いということです。特に、大規模組織に埋もれる多くの知識労働者にとっては、なおさらです。 フォーチュン職場革新サミットに参加しませんか 2026年5月19日〜20日、アトランタで開催されます。職場のイノベーションの次なる時代が到来し、従来の戦略は書き換えられつつあります。このエリートでエネルギッシュなイベントには、世界の最先端リーダーたちが集まり、AI、人間性、戦略がどのように融合し、再び働き方の未来を再定義するのかを探ります。今すぐ登録してください。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン