数学

記事数: 7 件

2026年6月13日

Claude Fable 5 が FrontierMath で GPT-5.5 を大幅上回る、88% 対 75%

Anthropic の Claude Fable 5 が高難度数学ベンチマーク FrontierMath で 88% の精度を達成。OpenAI の GPT-5.5（75%）を 13 ポイント上回り、AI の数学推論能力の急速な進化を示す。

2026年5月27日

Anthropic の Claude Mythos が 1946 年から未解決だったエルデシュの単位距離予想を解く。「かわいい、シンプルな証明」と評価され、AI 駆動型の数学発見に「深刻な余力」が存在することが明らかになった。

更新 2026年5月22日

OpenAI の新しい汎用推論モデルが、1946 年にポール・エルデシュが提唱した単位距離問題を解決。幾何学の基本的な仮説を覆す新しい構成を発見し、フィールズ賞受賞者テレンス・タオを含む著名数学者が同行声明で支持。複雑な推論能力の実証が、科学・工学全域への波及を示唆。

2026年5月17日

64人の数学者が開発した439問のベンチマーク SOOHAK。AI は複雑な数学問題は解くが、「この問題は解けない」と認識する能力に致命的な欠陥を持つことが判明

2026年4月30日

OpenAIの研究者Sebastian BubeckとErnest Ryuは、数学が汎用AI（AGI）達成度の客観的測定基準であると主張。2年間で小学算数から研究数学へ進化したモデルの能力から、長期的推論能力の急速な拡張を指摘する。

2026年4月15日

OpenAI の最新モデル GPT-5.4 Pro が数学界の難題「エルデシュ open problem #1196」を約 80 分で解決。フィールズ賞受賞者テレンス・タオは、この証明が「整数の構造」と「マルコフ過程理論」の新たな関連性を示す有意義な貢献だと述べた。

2026年2月5日

AxiomがAIで4件の未解決数学問題を解いたと報告しました（WIRED報道）。解法の公開と第三者検証が進めば、AIの推論力と計算資源が学術と産業に新たな可能性をもたらす期待があります。