Claude Fable 5 が FrontierMath で GPT-5.5 を大幅上回る、88% 対 75%
Anthropic の Claude Fable 5 が高難度数学ベンチマーク FrontierMath で 88% の精度を達成。OpenAI の GPT-5.5(75%)を 13 ポイント上回り、AI の数学推論能力の急速な進化を示す。
Anthropic の Claude Fable 5 が、数学証明に特化した高難度ベンチマーク「FrontierMath」の最難問題階層で 88% の精度を達成した。OpenAI の GPT-5.5 の 75% を大きく上回り、AI モデルの数学推論能力が急速に進化していることを示している。
FrontierMath における Fable 5 の成績
FrontierMath は、国際数学オリンピック(IMO)レベルの難題や最新の研究論文の数学証明を、AI が自力で解くことができるかを測定するベンチマークだ。最難層での Fable 5 の 88% という成績は、Anthropic の前世代モデル Opus 4.5 の 10% 未満という性能から見ると、短期間での著しい向上である。
同じ最難層での GPT-5.5 の成績は 75% で、Fable 5 は 13 ポイント上回っている。この差は単なる数値ではなく、frontier レベルの数学問題を解く能力において、Anthropic が OpenAI に対して競争優位を確立したことを意味する。
AI 数学推論能力の加速
FrontierMath の改善速度の加速は、AI が単なる予測モデルから推論エンジンへ進化していることを示唆している。数学問題は、論理的な多段階の推論を必要とする タスクであり、言語生成だけでは解けない。Fable 5 がこのレベルの性能を達成することで、AI の汎用推論能力が大きく向上したことが証明されている。
企業や研究機関が複雑な計算・シミュレーション・予測を必要とするタスクで、より高度な AI を活用できるようになる。また、AI による数学的発見や新理論の支援も現実性を帯びてきた。
開発者への選択判断への影響
Fable 5 のベンチマーク優位性は、開発者やエンタープライズ利用者の選択判断に直結する。数学関連タスク、複雑な推論が必要なアプリケーションの開発では、Claude Fable 5 が有力な選択肢となる。ただし、トークン価格がどうなるかが実務的な採用を左右する要素となる。