AIエージェントのスキル機能、ベンチマークでは高性能も現実環境では劇的に低下——研究論文
UC Santa BarbaraやMIT CSAILの研究チームが34,000件の実世界スキルを検証。ベンチマーク環境では55%の成功率が、現実的な条件下では35%まで低下することを発表。弱いモデルはスキルがあると逆にパフォーマンス低下。
UC Santa Barbara、MIT CSAIL、MIT-IBM Watson AI Lab の研究チームが、AIエージェントの「スキル」機能に関する大規模研究を発表しました。34,000件以上の実世界スキルをテストした結果、ベンチマーク環境での性能と現実的な運用環境での性能に大きな乖離があることが明らかになりました。
ベンチマーク vs 現実のギャップ
研究チームは SKILLSBENCH など既存のベンチマークテストが、事前に厳選されたタスク固有のスキルをエージェントに提供していることを指摘します。洪水検知の例では、必要な API コール、URL、コードスニペットが完全に含まれており、解答がほぼ自明になっていたとのこと。
Claude Opus 4.6 の成功率の推移
実現実的な条件へと段階的に移行させると、Claude Opus 4.6 の成功率は以下のように低下しました:
- 厳選スキル事前供給: 55.4%
- エージェント自身によるスキル選択: 51.2%
- ノイズスキル混在: 43.5%
- 独立検索: 40.1%
- スキル利用不可: 38.4%
- スキルなしベースライン: 35.4%
より弱いモデル(Kimi K2.5)では、スキル機能があるとむしろ性能が低下。スキルあり時 19.8% に対し、スキルなしベースラインでは 21.8% を達成しました。
3つの重大なボトルネック
研究は、スキル活用における3つの主要な問題を特定しました:
- スキル選択の精度: Claude の実行の 49% しか利用可能なスキルをすべて読み込まない
- 検索精度: 最高性能な方法でも 65.5% のリコールに留まる
- 適応性: エージェントが一般的なスキルを特定タスクに応用するのに苦戦
部分的な改善策
タスク固有の改良——エージェントがタスク探索に基づいてスキルを反復的に改善する手法——はわずかな改善(40.1% から 48.2%)をもたらしましたが、検索された初期材料に関連情報が含まれている場合に限定されました。
業界への示唆
この研究結果は、AIエージェント設計における重要な教訓を示しています。単に「スキル」という機能を装備するだけでは十分ではなく、エージェントがそのスキルを適切に識別・検索・適用する能力が不可欠だということです。将来のエージェント開発では、スキル検索の精度向上とタスク固有の適応メカニズムの強化が焦点となりそうです。