ベンチマークは AI の実力を過小評価していた——UK AISI、計算予算が進捗測定を歪める仕組みを実証
英国 AI 安全機構(AISI)の研究により、標準的なAIベンチマークが計算予算の制限によって、AIエージェントの実際の能力を系統的に過小評価していることが判明した。計算予算を10倍増やすと、ソフトウェア工学タスクで成功率が25%向上する。
続きを読む英国 AI 安全機構(AISI)の研究により、標準的なAIベンチマークが計算予算の制限によって、AIエージェントの実際の能力を系統的に過小評価していることが判明した。計算予算を10倍増やすと、ソフトウェア工学タスクで成功率が25%向上する。
続きを読む