Google DeepMind の AlphaProof Nexus、56年間未解のエルデシュ問題を含む9件を自動解法――数学証明の新たなAI利用法を実証

2026年5月25日 15:30

💡

形式化検証言語 Lean を用いた記号的フィードバックループにより、OpenAI の自然言語アプローチとは異なる数学証明戦略を確立。数百ドルの推論コストで業界のベンチマークを拡張。

Google DeepMind が発表した「AlphaProof Nexus」は、AI による数学証明のアプローチを根本的に転換する。356 個のエルデシュ問題（未解決の推測）に取り組み、うち 9 件の証明に成功。その中には 56 年間の未解問題 2 件が含まれている。推論あたりのコスト数百ドルという経済的実現性も示し、AI が学術研究の自動化へ進む可能性を示唆した。

Lean コンパイラによる記号的検証フレームワーク

AlphaProof Nexus の強みは、OpenAI の自然言語ベースのアプローチと異なり、Lean 形式化証明言語を用いた完全な自動検証である。システムは Gemini 3.1 Pro を用いて証明の各ステップを Lean の形式言語で生成し、Lean コンパイラが各行をリアルタイムチェック。エラーメッセージが次の試行へ直接フィードバックされる仕組みだ。

この「記号的フィードバックループ」により、統計的な言語モデルも単なる確率的推測ではなく、形式的な正確性に基づいて学習できる。OpenAI の自然言語方式では見落とされる微妙な論理破綻も、Lean は即座に指摘する。

4段階エージェント設計による段階的強化

AlphaProof Nexus は以下の4つのエージェント段階を持つ：

Agent(A): 基本的な LLM ループとコンパイラフィードバック
Agent(B): AlphaProof の強化学習クエリを統合
Agent(C): 進化的コンポーネントと Elo レーティング形式の証明スケッチ比較
Agent(D): 全機能を統合した最上位バージョン

このアーキテクチャにより、試行錯誤の効率を段階的に引き上げ、複雑な証明へのアクセス可能性を高めている。

ベンチマーク結果：成功率2.5%、コスト数百ドル

Erdős 問題: 356 件中 9 件解決（成功率 2.5%）、うち 56 年間未解 2 件含む
整数列百科事典（OEIS）: 492 の推測中 44 件を証明
代数幾何学: 15 年来のヒルベルト関数問題 1 件を解決
推論コスト: 問題あたり数百ドル（従来の計算コストと比較して破格の安さ）

成功率 2.5% は Erdős 問題ベンチマークの業界標準（1～2%）に近いが、記号的検証による 100% の正確性保証が獲得される。従来は数学者による手検証が不可欠だったが、Lean 形式証明なら機械検証が可能。

業界への影響：開発者・研究者向けの新ツール

AlphaProof Nexus の登場は、AI 推論の用途を「自然言語生成」から「形式的問題解決」へ拡張する先例となった。数学者・暗号研究者・形式検証エンジニアは、AI を 定理証明の半自動化ツールとして活用できる。検証速度と経済性の向上により、学術出版や産業応用での検証プロセスが加速する可能性もある。

同時に、Lean のような形式言語の知識が、今後の AI 開発チームにおいてより重要な資産になることも示唆している。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

OpenAI が SWE-Bench Pro の約30%が「破損」と発表、AI モデル比較の信頼性が揺らぐ

LLM・生成AI

2026年7月10日

OpenAI が SWE-Bench Pro の約30%が「破損」と発表、AI モデル比較の信頼性が揺らぐ

OpenAI が SWE-Bench Pro の調査結果を公表。約30%のタスクに問題があると判明。ベンチマークの信頼性低下により、AI モデル選定の基準が大きく変わる可能性。

Anthropic、Claude に新ダッシュボード「Reflect」を導入使用パターン可視化と「自分ごと化」戦略

LLM・生成AI

2026年7月10日

Anthropic、Claude に新ダッシュボード「Reflect」を導入使用パターン可視化と「自分ごと化」戦略

Anthropic が Claude に「Reflect」ダッシュボード機能を追加。使用パターンの可視化、反省促進、ウェルネス機能を実装。ユーザーの AI 依存度を自覚させ、ワークフロー最適化を促す設計。

OpenAI の AI が全 5 問制覇、AtCoder World Tour で人間全員を上回る

LLM・生成AI

2026年7月9日

OpenAI の AI が全 5 問制覇、AtCoder World Tour で人間全員を上回る

OpenAI が 2026 年 AtCoder World Tour Finals のアルゴリズム部門で人間の全競技者を圧倒。8300ポイントで優勝し、通常以上の難易度を持つ問題 D・E も含めて全問題を解きました。6 ヶ月前には解けなかった問題を一夜にして制覇する AI の進化速度を示す快挙です。

Mistral Leanstral 1.5: 形式検証で数学ベンチマーク優位、実コード内のバグを5件検出

Mistral AI が Leanstral 1.5（Lean 4 形式検証モデル）をオープンソースでリリース。数学ベンチマークで100%達成、57のオープンソースリポジトリスキャンで未知のバグを発見。開発者・数学者向けの実用的なツール。

Google DeepMind からノーベル賞受賞者が流出——John Jumper が Anthropic へ、研究トップが次々と競合企業へ

ビジネス

2026年6月20日

Google DeepMind からノーベル賞受賞者が流出——John Jumper が Anthropic へ、研究トップが次々と競合企業へ

タンパク質構造予測の革新者でノーベル化学賞受賞者の John Jumper が、9年間勤務した Google DeepMind から Anthropic へ転職。同時期に Gemini 共同リード Noam Shazeer が OpenAI へ、AlphaGo の研究者 David Silver がスタートアップを立ち上げるなど、Google の AI 人材流出が加速。

セキュリティ

2026年6月19日

Google DeepMind、AI エージェントを内部脅威として扱うセキュリティフレームワーク発表——AI Control Roadmap で段階的権限付与

Google DeepMind が「AI Control Roadmap」を公表。自律型 AI エージェントを潜在的なインサイダー脅威として扱い、計測可能な能力に応じた段階的セキュリティ対策を提示しています。

OpenAI が SWE-Bench Pro の約30%が「破損」と発表、AI モデル比較の信頼性が揺らぐ

ベンチマーク SWE-Bench Pro AI評価 OpenAI

LLM・生成AI

2026年7月10日

Anthropic、Claude に新ダッシュボード「Reflect」を導入使用パターン可視化と「自分ごと化」戦略

Claude Anthropic UI/UX ユーザー行動

Character.ai がドラマ制作に参入、ユーザーは登場キャラと会話・ロールプレイが可能

エンタメ

2026年7月9日

Character.ai がドラマ制作に参入、ユーザーは登場キャラと会話・ロールプレイが可能

AI チャットプラットフォーム Character.ai が新サービス「マイクロドラマ」を開始。『Last Summer』『The Nighttime Game』『Eden Fall』の3シリーズをリリース。ユーザーは作品を鑑賞するだけでなく、キャラクターに質問したり、ストーリーを分岐させたりできる新体験を提供。

Character.ai AI ドラマエンタメストーリーテリング

LLM・生成AI

2026年7月9日