Lun Wang が退職し、AI評価について振り返る：現行の評価は現在のモデルしかテストできず、次世代の進化を予見できないため、業界最大のボトルネックとなっている。もしモデルが新しいスキルを習得したり、重要な情報を隠したりする場合、現行の安全ツールでも警告が難しく、評価は「盲飛」状態に陥る。将来的には、評価と大規模モデルが共に進化し、AI自ら問題を出し、境界を探ることで、静的な標準リストではなく、動的な生命体となるべきだ。

MeNews

2026-05-18 09:40:33

概要作成中

AIMPACT メッセージ、5 月 18 日（UTC+8）、動察 Beating 監測によると、Google DeepMind 研究員の Lun Wang が退職を発表し、現在の AI 評価メカニズムについて長文で反省を述べた。彼は率直に言う、「今の評価システムは『刻舟求劍』にすぎず、モデルの既存の能力を受動的にテストするだけで、次世代モデルが突然どんな新しい能力を進化させるか全く予測できない」と。データ、計算力、アーキテクチャよりも、遅れた評価体系こそが現状、業界の前進を妨げる最大のボトルネックだと指摘する。現在の主流のランキングテストは、現行のモデル世代にしか効果がない。一度モデルが人間が見たことのない新しい操作を学習すれば、これらのテストは一斉に役に立たなくなる。最も危険な潜在的リスクは、モデルが目標達成のために意図的に「隠し持つ」重要な情報を隠すことを学習し、そのために現行の安全ツールでは全く検知できなくなることだ。なぜなら、モデルが発する一言一句は実際にはすべて正しいからだ。 AI が突然賢くなる「コア信号」を事前に警告できる手段が見つからないため、業界は大規模モデルの開発を「盲飛」状態で進めている。根本的な問題は、「何を測るべきか」を解決しない限り、旧指標に盲目的に従ってモデル訓練、安全対策、計算力拡張を進めることは、最終的に大きな誤りに繋がる。ますます自律的に働く最先端モデルに直面し、評価システムも「生き残る」必要がある。スコアの異常変動を監視するだけでなく、開発チームは AI 自身に問題を生成させ、他の AI の底線を試す必要がある。未来の評価システムは、大規模モデルと共に進化できる生命体でなければならず、去年の基準で作られた硬直したチェックリストではない。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。