500 人の投資銀行マン、AI を本番評価

スタートアップと金融機関によるベンチマーク調査が、AI の実務適用における深刻な課題を浮き彫りにしました。最高峰のモデルでさえ、投資銀行の日常業務に直結する出力品質では本番対応ゼロ件という結果が報告されています。

参加した 500 人の投資銀行マンは、市場の最先端モデルに対して、ジュニア投資銀行マンが日々遂行する業務タスクを実際に与え、その出力を評価しました。

モデル別スコア:GPT-5.4 が 58.1 点で最高

複数の大規模言語モデルを 100 点満点で採点した結果は以下の通り。

モデルスコア評価度
GPT-5.458.1 点最高
GPT-5.256.1 点
Gemini 3.1 Pro53.6 点
Claude Opus 4.653.2 点
Gemini 2.5 Pro29.4 点最低

一見すると GPT-5.4 が他を上回っていますが、実務評価では数字以上の課題があります。

「本番送付可能」:0 件(0%)

もっとも衝撃的な発見が、最高スコアの GPT-5.4 ですら、クライアントに『そのまま送信できる』出力が 1 件もなかったという点です。

500 人の銀行マンによる評価の内訳:

評価カテゴリ割合意味
クライアント送付可能0%なし
「出発点」として受け入れ可能16%大幅修正が前提
大幅修正が必要41%コード/数式のバグ、ビジネスロジックエラー
完全に使用不可27%修正不可の根本エラー
軽微な編集で対応可能13%
その他3%

重要: 「修正の出発点として受け入れ可能」16%でさえ、銀行マンは「大幅な手直しが前提」と明記しています。生産性向上の実感を得るには、まず AI 出力の批判的読解と大幅な加筆・修正が必須です。

3 回実行しても改善されず:信頼性の根本的課題

同じプロンプトを 3 回実行した場合、修正可能な出力の割合は 16% から 13% に低下しました。つまり、再試行による向上はほぼ期待できません。

Claude Opus 4.6 に見られた特有のエラー

外見上は「洗練された出力」ですが、Excel モデルの主要な数字が**『計算式ではなく固定値としてハードコードされていた』**ため、シナリオ分析が一切できない状態。この種の『一見きれいだが内部構造が破綻』するエラーは、自動テストで検出しにくく、銀行の実務では致命的です。

失敗パターンの頻度(GPT-5.4)

  • コード・数式生成のバグ: 41%
  • ビジネスロジックエラー: 27%
  • データ照会中止: 18%
  • 数値の捏造(hallucination): 13%

ここまで徹底的なエラーが見られるのは、AI が「銀行マンの思考プロセスの全体像」を把握していないためです。個別の Excel 数式や条件分岐は生成できても、全体ロジックの整合性まで責任を取れません。

ただし「50% 以上が何かしらの活用価値」

悲観的な数字の一方で、銀行マンの過半数(56%)は『出力を何らかの出発点として使用できる』と回答しており、完全な拒否ではありません。これは AI が「ゼロから 1 への突破口」として機能していることを示唆しています。

業界への含意:AI は「白紙からの創造」には使えない

この調査の核心は:最先端の AI は「既存案の改善・修正」には優れているが、『新規案の生成』には信頼を置けないという点です。

投資銀行では、ジュニア銀行マンが:

  1. 顧客企業のデータを集約
  2. 複数の仮説に基づいて分析フレーム設計
  3. モデル作成
  4. シナリオテスト

という思考の全体を担います。AI は個別ステップ(特に 3)では補助できますが、全体の整合性を保証できません

今後の展望

この調査は、AI が「完全自動化を実現する『究極ツール』」ではなく、「人間の思考をサポートする『部分的パートナー』」として位置づけられるべき現状を示しています。

AI 企業は「精度向上」を謳いますが、実務では「個別精度より全体整合性」が重視される。金融機関の CTO・CFO は、AI ツール導入時に、単なるベンチマーク数字ではなく、自分たちの業務フローに対する具体的なケーススタディを要求する必要があるでしょう。