投資銀行 500 人が AI 出力を本番評価：ゼロ件が『そのまま送付可能』

2026年4月26日 11:11

💡

投資銀行マン 500 人による実務レビューで、最高性能の GPT-5.4 でも 0 件がクライアント送付可。修正の出発点として使用可能は 16% のみ。Claude Opus 4.6、Gemini でも同様傾向。AI が高性能化する一方、実務信頼性の課題が明らかに。

500 人の投資銀行マン、AI を本番評価

スタートアップと金融機関によるベンチマーク調査が、AI の実務適用における深刻な課題を浮き彫りにしました。最高峰のモデルでさえ、投資銀行の日常業務に直結する出力品質では本番対応ゼロ件という結果が報告されています。

参加した 500 人の投資銀行マンは、市場の最先端モデルに対して、ジュニア投資銀行マンが日々遂行する業務タスクを実際に与え、その出力を評価しました。

モデル別スコア：GPT-5.4 が 58.1 点で最高

複数の大規模言語モデルを 100 点満点で採点した結果は以下の通り。

モデル	スコア	評価度
GPT-5.4	58.1 点	最高
GPT-5.2	56.1 点
Gemini 3.1 Pro	53.6 点
Claude Opus 4.6	53.2 点
Gemini 2.5 Pro	29.4 点	最低

一見すると GPT-5.4 が他を上回っていますが、実務評価では数字以上の課題があります。

「本番送付可能」：0 件（0%）

もっとも衝撃的な発見が、最高スコアの GPT-5.4 ですら、クライアントに『そのまま送信できる』出力が 1 件もなかったという点です。

500 人の銀行マンによる評価の内訳：

評価カテゴリ	割合	意味
クライアント送付可能	0%	なし
「出発点」として受け入れ可能	16%	大幅修正が前提
大幅修正が必要	41%	コード/数式のバグ、ビジネスロジックエラー
完全に使用不可	27%	修正不可の根本エラー
軽微な編集で対応可能	13%
その他	3%

重要: 「修正の出発点として受け入れ可能」16%でさえ、銀行マンは「大幅な手直しが前提」と明記しています。生産性向上の実感を得るには、まず AI 出力の批判的読解と大幅な加筆・修正が必須です。

3 回実行しても改善されず：信頼性の根本的課題

同じプロンプトを 3 回実行した場合、修正可能な出力の割合は 16% から 13% に低下しました。つまり、再試行による向上はほぼ期待できません。

Claude Opus 4.6 に見られた特有のエラー

外見上は「洗練された出力」ですが、Excel モデルの主要な数字が**『計算式ではなく固定値としてハードコードされていた』**ため、シナリオ分析が一切できない状態。この種の『一見きれいだが内部構造が破綻』するエラーは、自動テストで検出しにくく、銀行の実務では致命的です。

失敗パターンの頻度（GPT-5.4）

コード・数式生成のバグ: 41%
ビジネスロジックエラー: 27%
データ照会中止: 18%
数値の捏造（hallucination）: 13%

ここまで徹底的なエラーが見られるのは、AI が「銀行マンの思考プロセスの全体像」を把握していないためです。個別の Excel 数式や条件分岐は生成できても、全体ロジックの整合性まで責任を取れません。

ただし「50% 以上が何かしらの活用価値」

悲観的な数字の一方で、銀行マンの過半数（56%）は『出力を何らかの出発点として使用できる』と回答しており、完全な拒否ではありません。これは AI が「ゼロから 1 への突破口」として機能していることを示唆しています。

業界への含意：AI は「白紙からの創造」には使えない

この調査の核心は：最先端の AI は「既存案の改善・修正」には優れているが、『新規案の生成』には信頼を置けないという点です。

投資銀行では、ジュニア銀行マンが：

顧客企業のデータを集約
複数の仮説に基づいて分析フレーム設計
モデル作成
シナリオテスト

という思考の全体を担います。AI は個別ステップ（特に 3）では補助できますが、全体の整合性を保証できません。

今後の展望

この調査は、AI が「完全自動化を実現する『究極ツール』」ではなく、「人間の思考をサポートする『部分的パートナー』」として位置づけられるべき現状を示しています。

AI 企業は「精度向上」を謳いますが、実務では「個別精度より全体整合性」が重視される。金融機関の CTO・CFO は、AI ツール導入時に、単なるベンチマーク数字ではなく、自分たちの業務フローに対する具体的なケーススタディを要求する必要があるでしょう。

記事をシェア

参考ソース

★ 注目 THE DECODER

テクノロジーの記事

Chalmers 大学・Volvo 研究――AI エージェント開発は『コード外』へ拡張。6層モデルで見えてきた開発者の新しい役割

テクノロジー

2026年4月26日

Chalmers 大学・Volvo 研究――AI エージェント開発は『コード外』へ拡張。6層モデルで見えてきた開発者の新しい役割

『AI エージェント = プログラマー職の終わり』という単純な予測は誤り。Chalmers 大学と Volvo Group の共同研究が示す、ソフトウェアエンジニアリングの拡張と開発者スキルの転換。

中国のAI企業群が急速成長――DeepSeekが欧米モデルに肉薄、複数の有力企業が並立

テクノロジー

2026年4月25日

中国のAI企業群が急速成長――DeepSeekが欧米モデルに肉薄、複数の有力企業が並立

DeepSeek-V4が2026年4月24日にリリース。Google Gemini Pro 3.1に次ぐ性能を実現。ByteDANCEのDoubao、Alibabaなど複数の有力企業が月間アクティブユーザー100M以上を獲得し、米国の輸出制限下でも中国AI企業の多角的な成長を示唆している。

Isomorphic Labs の AI 開発医薬品、ヒト臨床試験へ――DeepMind スピンオフが創薬革新の実現段階に

テクノロジー

2026年4月24日

Isomorphic Labs の AI 開発医薬品、ヒト臨床試験へ――DeepMind スピンオフが創薬革新の実現段階に

DeepMind のスピンオフ企業 Isomorphic Labs が、AI を用いて開発した医薬品がヒト臨床試験に進むと発表。Max Jaderberg CEO は「充実したパイプライン」を語り、AI 医学研究が実用化の局面を迎えた。

BalyasnyがGPT-5.4で投資分析を革新

BalyasnyがGPT-5.4を活用したAI研究エンジンを開発中と報じられました。厳格なモデル評価とエージェント運用で投資分析の速度と透明性を高める狙いがあり、今後の実装とガバナンス整備が注目されます。

スタートアップ

2026年4月23日

元 OpenAI 研究者 Jerry Tworek が Core Automation 立ち上げ——新しい AI 研究の道

OpenAI の研究者 Jerry Tworek が新 AI ラボ Core Automation を立ち上げ。トランスフォーマーに代わる新しい学習アルゴリズムを追求する「ネオラボ」の一員に。

Moonshot AI、オープンウェイト Kimi K2.6 をリリース。GPT-5.4・Claude Opus 4.6 相当の性能で最大300エージェント並列実行可能

LLM・生成AI

2026年4月20日

Moonshot AI、オープンウェイト Kimi K2.6 をリリース。GPT-5.4・Claude Opus 4.6 相当の性能で最大300エージェント並列実行可能

中国の Moonshot AI が Kimi K2.6 をオープンウェイト（オープンソース）モデルとしてリリースしました。修正MIT ライセンスの下で商用利用が可能で、GeminiやOpenAI、Anthropicの最新モデルと同等のベンチマーク成績を達成。さらに最大300個のサブエージェントを並列制御する先進的なエージェント機構を備えています。