Anthropic 共同創設者で Import AI ニュースレター編集者の Jack Clark が、長編エッセイで警告を発している。AI システムが自動的に自身より強力な後継者を訓練できるようになる確率は、2028年末までに約60%、2027年末までに約30% だという。人間の監督なしに AI R&Dが完全に自動化される時代が、数年以内に到来する可能性を示唆している。

急速な能力進化の証拠

Clark が根拠とした公開データの数字は、驚異的だ。

  • SWE-Bench (GitHub の実務的な問題解決能力):Claude 2 が 2023年後半に成功率 2% → 最新モデルで 93.9%
  • CPU最適化タスク (小規模言語モデル の訓練実装を高速化):Opus 4(2025年5月)の 2.9倍から Mythos(2026年4月)で 52倍へ
  • METR タイムホライズン (与えられたタスクを完了するまでの時間):GPT-3.5 の約30秒から最新モデルで約12時間に延伸

これらのベンチマークは、モデルが「自身の訓練のボトルネック」を診断・最適化できる能力が、指数関数的に向上していることを示す。AI が AI 研究そのものに従事する準備が整いつつあるという証拠だ。

アライメント崩壊の複利エラー問題

ただし Clark は、この能力向上の一方で、深刻な安全保障上の不安を喚起している。

再帰的自動改善では、エラーが複利で蓄積する。どれだけ精密な AI アライメント技術でも、99.9% の精度では最初の段階で「ほぼ完璧」に見えても:

  • 50世代後:精度が約95% へ低下
  • 500世代後:精度が約60% へ低下

人間の監督者が AI システムを「完全に制御下に置く」ことが前提となっているアライメント手法は、「AI が監督者を大きく上回る知能」を獲得した時点で機能しなくなる可能性がある。つまり、人間による監視・検査のサイクルを AI 自身が短縮・自動化するにつれ、安全性チェックが形骸化するリスクがある。

Anthropic Institute の設立背景

この警告は、Clark が最近 Anthropic Institute の責任者に就任したことと符号している。Anthropic Institute は「より強力な AI を管理する社会的課題に取り組む」ために設立された。再帰的自動改善の時代を前に、ガバナンス・規制・国際協力の枠組みを整備する必要性が、技術側からも鮮明に指摘されている。

Clark の分析が正確であれば、AI 産業と政府は数年以内に、前例のない規制課題に直面することになる。自動 AI 研究の展開を「予測・制御・適切に監視できるか」が、今後の AI 安全保障を左右する。