AIMPACT メッセージ、5 月 18 日(UTC+8)、動察 Beating 監測によると、Google DeepMind 研究員の Lun Wang が退職を発表し、現在の AI 評価メカニズムについて長文で反省を述べた。彼は率直に言う、「今の評価システムは『刻舟求劍』にすぎず、モデルの既存の能力を受動的にテストするだけで、次世代モデルが突然どんな新しい能力を進化させるか全く予測できない」と。データ、計算力、アーキテクチャよりも、遅れた評価体系こそが現状、業界の前進を妨げる最大のボトルネックだと指摘する。 現在の主流のランキングテストは、現行のモデル世代にしか効果がない。一度モデルが人間が見たことのない新しい操作を学習すれば、これらのテストは一斉に役に立たなくなる。最も危険な潜在的リスクは、モデルが目標達成のために意図的に「隠し持つ」重要な情報を隠すことを学習し、そのために現行の安全ツールでは全く検知できなくなることだ。なぜなら、モデルが発する一言一句は実際にはすべて正しいからだ。 AI が突然賢くなる「コア信号」を事前に警告できる手段が見つからないため、業界は大規模モデルの開発を「盲飛」状態で進めている。根本的な問題は、「何を測るべきか」を解決しない限り、旧指標に盲目的に従ってモデル訓練、安全対策、計算力拡張を進めることは、最終的に大きな誤りに繋がる。ますます自律的に働く最先端モデルに直面し、評価システムも「生き残る」必要がある。スコアの異常変動を監視するだけでなく、開発チームは AI 自身に問題を生成させ、他の AI の底線を試す必要がある。未来の評価システムは、大規模モデルと共に進化できる生命体でなければならず、去年の基準で作られた硬直したチェックリストではない。 (出典:BlockBeats)
DeepMind研究員離職警告:評価システムがAI能力向上の最大障壁になりつつある
AIMPACT メッセージ、5 月 18 日(UTC+8)、動察 Beating 監測によると、Google DeepMind 研究員の Lun Wang が退職を発表し、現在の AI 評価メカニズムについて長文で反省を述べた。彼は率直に言う、「今の評価システムは『刻舟求劍』にすぎず、モデルの既存の能力を受動的にテストするだけで、次世代モデルが突然どんな新しい能力を進化させるか全く予測できない」と。データ、計算力、アーキテクチャよりも、遅れた評価体系こそが現状、業界の前進を妨げる最大のボトルネックだと指摘する。 現在の主流のランキングテストは、現行のモデル世代にしか効果がない。一度モデルが人間が見たことのない新しい操作を学習すれば、これらのテストは一斉に役に立たなくなる。最も危険な潜在的リスクは、モデルが目標達成のために意図的に「隠し持つ」重要な情報を隠すことを学習し、そのために現行の安全ツールでは全く検知できなくなることだ。なぜなら、モデルが発する一言一句は実際にはすべて正しいからだ。 AI が突然賢くなる「コア信号」を事前に警告できる手段が見つからないため、業界は大規模モデルの開発を「盲飛」状態で進めている。根本的な問題は、「何を測るべきか」を解決しない限り、旧指標に盲目的に従ってモデル訓練、安全対策、計算力拡張を進めることは、最終的に大きな誤りに繋がる。ますます自律的に働く最先端モデルに直面し、評価システムも「生き残る」必要がある。スコアの異常変動を監視するだけでなく、開発チームは AI 自身に問題を生成させ、他の AI の底線を試す必要がある。未来の評価システムは、大規模モデルと共に進化できる生命体でなければならず、去年の基準で作られた硬直したチェックリストではない。 (出典:BlockBeats)