英国の AI 安全機構(UK AI Security Institute、AISI)が 7 つのベンチマークを対象に実施した研究で、標準的な AI 評価が計算予算の上限設定により、AI エージェントの実際の能力を系統的に過小評価していることが判明した。この発見は、AI 進捗の測定方法に根本的な疑問を投げかけている。

計算予算が能力評価を制限

AISI の研究チームが調査した 7 つのベンチマークは、すべて評価時に AI モデルが使用できる計算リソース(トークン予算)に上限を設定していた。この制限は、評価の実行可能性(時間とコストの削減)を目的としていたが、同時に AI の本当の力を垣間見ることを妨げていたのだ。

研究チームがこの制限を外し、モデルに 10 倍のトークン予算を与えると、劇的な改善が観測された。特にソフトウェア工学タスクにおいて、成功率が約 25%向上した。これは、単なる「より多くの計算で同じことができる」ではなく、より適切に仕事をこなすモデルの潜在能力が隠されていたことを示唆している。

最新モデルほど影響が大きい

興味深いことに、トークン予算の影響はモデルの世代や性能レベルによって異なる。最新で高性能なモデルほど、より多くの計算リソースの恩恵を受ける。つまり、現在のベンチマークで測定される「進捗」は、特に新しいモデルについて大幅に過小評価されているということだ。

実際の進捗は「60%上回っている」

AISI の分析によると、トークン予算の制限による影響を補正すると、AI 技術の実際の進捗は、従来の測定値から予想される速度より約 60%上回っている可能性がある。言い換えれば、公表されている AI 進捗の数字そのものが、実像の 60%過小評価されているリスクがあるということだ。

AI 評価の再考が急務

この研究の公開は、AI 業界における評価方法論への大きな転換点となる可能性がある。

産業側の影響: 企業が AI 导入のための意思決定をする際、公表されているベンチマーク結果を信頼できなくなる。実際の運用環境での性能は、公表値より大幅に高い可能性があるため、導入の判断基準そのものが変わる。

研究側の影響: AI 安全研究や能力評価を専門とする研究機関は、計算予算の設定をどうするかについて再検討が必要になる。完全に無制限にすれば評価が膨張するが、現在のように厳しく制限すれば実態を反映しない。

政策・規制側の影響: AI 規制や安全性評価のための基準として使われるベンチマークが、実は AI 能力の過小評価に基づいていた場合、規制の有効性そのものが疑われることになる。

次世代ベンチマークの設計課題

この発見は、次世代のベンチマーク設計に新しい課題をもたらす。「現実的な計算コストの中で、ありのままの能力を測定する方法」をどう構築するか。単なる計算リソースの増加だけでなく、推論戦略の改善や複数段階での思考(chain-of-thought)なども、実際の運用では使用される。

今後、AI 能力の測定方法は、より「実践的で段階的」なアプローチへシフトしていくと考えられる。その過程では、公表されている AI 進捗の評価そのものが修正される可能性も高い。