AI が数学の問題を解く能力と、「この問題は解けない」と認識する能力は全く別だ。カーネギーメロン大学などが開発した新しいベンチマーク「SOOHAK」が、この根本的な乖離を明らかにした。

SOOHAK ベンチマークの構成

SOOHAK は 64 人の数学者がゼロから作成した 439 問の数学ベンチマークだ。研究レベルの難題 340 問と、意図的に矛盾を含む「解けない問題」99 問の 2 セクションに分かれている。

最高成績を収めたのは Google の Gemini 3 Pro で、解答可能なセクションで 30% を達成した。しかし決定的な弱点が存在する。どのモデルも、解けない問題を正しく「解けない」と判定する能力では 50% の正答率に到達できなかった。

計算量では解決しない欠陥

最も衝撃的な発見は、計算資源の増加が この能力を改善しないという点だ。つまり、言語モデルをさらに大規模化したり、より多くの推論ステップを与えたりしても、「この問題は解けない」という判断の精度は上がらない可能性が高い。

研究チームは、現在のモデルがこの能力を直接的には最適化していないことを指摘する。言語モデルは「正解を導く」ことで学習され、「問題が矛盾している」と判断することは、学習過程の優先順位が低いのだ。

研究レベル数学での苦手意識

ベンチマークの別の課題も明らかになった。オープンウェイトモデル(Meta や Mistral のモデルなど)は、大型クローズドモデル(Gemini、GPT、Claude)に比べてスコアが大幅に低下する。これは、研究レベルの数学知識が少数の大規模モデルに集中していることを示唆している。

SOOHAK は、AI の推論能力の限界がどこにあるのかを映す鏡だ。数値計算や形式的な問題解決では優秀だが、「解くべきでない問題」を見分ける判断力は、現在の言語モデルの設計では後回しにされている。