SOOHAK ベンチマーク、AI が「解けない問題」を認識できない根本的な限界を露呈――計算量増加でも改善されず

2026年5月17日 18:10

💡

64人の数学者が開発した439問のベンチマーク SOOHAK。AI は複雑な数学問題は解くが、「この問題は解けない」と認識する能力に致命的な欠陥を持つことが判明

AI が数学の問題を解く能力と、「この問題は解けない」と認識する能力は全く別だ。カーネギーメロン大学などが開発した新しいベンチマーク「SOOHAK」が、この根本的な乖離を明らかにした。

SOOHAK ベンチマークの構成

SOOHAK は 64 人の数学者がゼロから作成した 439 問の数学ベンチマークだ。研究レベルの難題 340 問と、意図的に矛盾を含む「解けない問題」99 問の 2 セクションに分かれている。

最高成績を収めたのは Google の Gemini 3 Pro で、解答可能なセクションで 30% を達成した。しかし決定的な弱点が存在する。どのモデルも、解けない問題を正しく「解けない」と判定する能力では 50% の正答率に到達できなかった。

計算量では解決しない欠陥

最も衝撃的な発見は、計算資源の増加がこの能力を改善しないという点だ。つまり、言語モデルをさらに大規模化したり、より多くの推論ステップを与えたりしても、「この問題は解けない」という判断の精度は上がらない可能性が高い。

研究チームは、現在のモデルがこの能力を直接的には最適化していないことを指摘する。言語モデルは「正解を導く」ことで学習され、「問題が矛盾している」と判断することは、学習過程の優先順位が低いのだ。

研究レベル数学での苦手意識

ベンチマークの別の課題も明らかになった。オープンウェイトモデル（Meta や Mistral のモデルなど）は、大型クローズドモデル（Gemini、GPT、Claude）に比べてスコアが大幅に低下する。これは、研究レベルの数学知識が少数の大規模モデルに集中していることを示唆している。

SOOHAK は、AI の推論能力の限界がどこにあるのかを映す鏡だ。数値計算や形式的な問題解決では優秀だが、「解くべきでない問題」を見分ける判断力は、現在の言語モデルの設計では後回しにされている。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

8月に統合・新機能AutoPilot——Microsoft、AI スーパーアプリ競争に本格参入

LLM・生成AI

2026年7月5日

8月に統合・新機能AutoPilot——Microsoft、AI スーパーアプリ競争に本格参入

Microsoft は 8 月に複数の Copilot アプリを統合し、AI エージェント『AutoPilot』を追加。25 億ドル投資でエージェント技術を強化。業界全体が『スーパーアプリ』へシフト

Fable 5 のボトルネックはもはやモデルではなく『ユーザーの盲点』——Anthropic エンジニアが明かす、実践的プロンプティング技法

LLM・生成AI

2026年7月4日

Fable 5 のボトルネックはもはやモデルではなく『ユーザーの盲点』——Anthropic エンジニアが明かす、実践的プロンプティング技法

Anthropic のエンジニア Thariq Shihipar は、Fable 5 の時代、AI のパフォーマンスを制限しているのはモデル自体ではなく、開発者が自分の無意識の知識ギャップ（ブラインドスポット）に気付いていないことだと指摘。ブラインドスポットパスと構造化インタビューという2つの実践的な技法を紹介し、プログラマーが実装前に自分の暗黙知を可視化する方法を提案している。