複雑な現実の仕事で AI は依然として脆弱

企業内で実際に発生する知識労働のシナリオを再現したベンチマーク「AA-Briefcase」の結果が公開されました。Artificial Analysis による評価では、複数の情報源を統合し複雑な判断が必要な仕事では、現在市場で最高性能とされる AI モデルですら期待値を大きく下回る性能しか発揮できないことが判明しました。

最も高い評価を得た Claude Fable 5 でさえ、基準をすべて満たす実行は わずか 3% に留まります。つまり、100 個の複雑なタスクが与えられて、完璧にこなせるのは 3 つだけということです。

ベンチマークの実務的なシナリオ

AA-Briefcase が測定する仕事は、実際の職場でよく見かけるものです。複数週間にわたるプロジェクトの中で、Slack のスレッド、メール、会議記録、膨大なデータエクスポートなど、数千の断片化したファイルから情報を引き出し、統合して判断する—これが現実的な知識労働です。

例えば、プロジェクト進捗の確認、顧客の問題解決、経営意思決定など、多くの関連ファイルを参照する必要がある業務が該当します。AI チャットボットがこうした実務に「本当に使えるのか」を測定するのが AA-Briefcase の狙いです。

モデル別の成功率

91 個のタスクが与えられた試験では、31 タスク(34%)について「どのモデルも 50% 以上の完成度に達していない」という結果が出ました。すなわち 3 割のタスクは、現時点のいかなる AI モデルを使っても、人間レベルの完成度には到達不可能だという意味です。

弱いモデルの場合、関連ファイルを見落とすか、使い物にならない出力を生成してしまいます。強いモデル(Claude Fable 5 など)の場合、単純な要件は満たすものの、複数情報源から細部を組み合わせて理解する必要がある部分で落とし穴に陥ります。

「見逃しやすい細部」「複数の矛盾を調整する判断」「文脈に応じた優先順位付け」—こうした人間なら自然にこなす処理が AI の弱点です。

経済性における格差

タスク当たりの処理コストにおいて、最も安いモデル(DeepSeek V4 Flash で約 0.04 ドル)と最も高いモデル(Claude Fable 5 で 31 ドル以上)の間には 800 倍以上の差 があります。

コストが 800 倍高いモデルを使ってようやく 3% の完全成功率を達成できるというのは、企業の実務導入を考えると厳しい現実です。同時に、安いモデルはさらに信頼性が低いため、使い物にならない出力のチェック・修正に人間の時間を消費することになります。

AI 導入の課題

この結果は、AI を知識労働に導入しようとしている企業にとって重要な示唆を与えます。AI は「完全に人間を代替する」ツールではなく、「人間が最終判断する際の補助」くらいの位置づけが現実的だということです。

特に、以下の場面では AI の限界が顕著です:

  • 複数の情報源の矛盾を調整する必要がある判断
  • 一度見落とすと大きな損失になる「細部」の確認
  • 複雑な背景や文脈を踏まえた優先順位付け

今後の改善の方向

AI ベンダーにとって、AA-Briefcase の結果は改善の羅針盤になります。単純なテキスト生成能力だけでなく、複数ファイルの並列処理、矛盾の検出と調整、出力の信頼度の定量化など、より実務的な能力の向上が求められます。

企業側も、「AI 導入で人員削減」というシナリオよりも、「AI で人間の判断を高速化・効率化」というアプローチのほうが現実的だと考えるべき時代に入ったということかもしれません。