ベンチマークは AI の実力を過小評価していた——UK AISI、計算予算が進捗測定を歪める仕組みを実証

2026年7月4日 09:15

💡

英国 AI 安全機構（AISI）の研究により、標準的なAIベンチマークが計算予算の制限によって、AIエージェントの実際の能力を系統的に過小評価していることが判明した。計算予算を10倍増やすと、ソフトウェア工学タスクで成功率が25%向上する。

英国の AI 安全機構（UK AI Security Institute、AISI）が 7 つのベンチマークを対象に実施した研究で、標準的な AI 評価が計算予算の上限設定により、AI エージェントの実際の能力を系統的に過小評価していることが判明した。この発見は、AI 進捗の測定方法に根本的な疑問を投げかけている。

計算予算が能力評価を制限

AISI の研究チームが調査した 7 つのベンチマークは、すべて評価時に AI モデルが使用できる計算リソース（トークン予算）に上限を設定していた。この制限は、評価の実行可能性（時間とコストの削減）を目的としていたが、同時に AI の本当の力を垣間見ることを妨げていたのだ。

研究チームがこの制限を外し、モデルに 10 倍のトークン予算を与えると、劇的な改善が観測された。特にソフトウェア工学タスクにおいて、成功率が約 25%向上した。これは、単なる「より多くの計算で同じことができる」ではなく、より適切に仕事をこなすモデルの潜在能力が隠されていたことを示唆している。

実際の進捗は「60%上回っている」

AISI の分析によると、トークン予算の制限による影響を補正すると、AI 技術の実際の進捗は、従来の測定値から予想される速度より約 60%上回っている可能性がある。言い換えれば、公表されている AI 進捗の数字そのものが、実像の 60%過小評価されているリスクがあるということだ。

AI 評価の再考が急務

この研究の公開は、AI 業界における評価方法論への大きな転換点となる可能性がある。

産業側の影響： 企業が AI 导入のための意思決定をする際、公表されているベンチマーク結果を信頼できなくなる。実際の運用環境での性能は、公表値より大幅に高い可能性があるため、導入の判断基準そのものが変わる。

研究側の影響： AI 安全研究や能力評価を専門とする研究機関は、計算予算の設定をどうするかについて再検討が必要になる。完全に無制限にすれば評価が膨張するが、現在のように厳しく制限すれば実態を反映しない。

政策・規制側の影響： AI 規制や安全性評価のための基準として使われるベンチマークが、実は AI 能力の過小評価に基づいていた場合、規制の有効性そのものが疑われることになる。

次世代ベンチマークの設計課題

この発見は、次世代のベンチマーク設計に新しい課題をもたらす。「現実的な計算コストの中で、ありのままの能力を測定する方法」をどう構築するか。単なる計算リソースの増加だけでなく、推論戦略の改善や複数段階での思考（chain-of-thought）なども、実際の運用では使用される。

今後、AI 能力の測定方法は、より「実践的で段階的」なアプローチへシフトしていくと考えられる。その過程では、公表されている AI 進捗の評価そのものが修正される可能性も高い。

記事をシェア

参考ソース

★ 注目 THE DECODER

テクノロジーの記事

Google & Amazon、AI インフラ建設で排出量急増——脱炭素公約から遠ざかる大手テック

テクノロジー

2026年7月4日

Google & Amazon、AI インフラ建設で排出量急増——脱炭素公約から遠ざかる大手テック

Google と Amazon は今週、温室効果ガス排出量の大幅な増加を報告した。AI インフラストラクチャの急速な整備が主因で、両社とも脱炭素目標からの乖離を深めている。業界全体での環境負荷の急増が懸念される。

Bridgewater の金融テストで開放モデルが GPT・Claude に勝利——コスト数分の一

テクノロジー

2026年7月3日

Bridgewater の金融テストで開放モデルが GPT・Claude に勝利——コスト数分の一

ヘッジファンド Bridgewater と Thinking Machines Lab による金融ドキュメント評価テストで、fine-tuned なオープンウェイト（開放重み付け）モデルが OpenAI の GPT と Anthropic の Claude に勝利。数分の一のコストで同等以上のパフォーマンスを実現。