Mistral Leanstral 1.5: 形式検証で数学ベンチマーク優位、実コード内のバグを5件検出
Mistral AI が Leanstral 1.5(Lean 4 形式検証モデル)をオープンソースでリリース。数学ベンチマークで100%達成、57のオープンソースリポジトリスキャンで未知のバグを発見。開発者・数学者向けの実用的なツール。
Mistral AI が Leanstral 1.5 をリリースした。Lean 4 プログラミング言語での形式検証・証明アシスタント用に設計されたオープンソースモデルで、数学ベンチマークで顕著な成績を上げつつ、実際のコードバグ検出でも実用性を証明している。
ベンチマーク成績——数学での優位性
Leanstral 1.5 は複数の数学・形式検証ベンチマークで優秀な結果を達成した。
| ベンチマーク | 成績 | 難易度 |
|---|---|---|
| miniF2F | 100% 完全達成 | 高校~数学オリンピック |
| PutnamBench | 587問 / 672問解決(87%) | 大学レベルの難問 |
| FATE-H | 87% スコア | 修士課程レベルの代数問題 |
| FATE-X | 34% スコア | 博士課程レベルの代数問題 |
miniF2F での 100% 達成は特に注目に値する。高校レベルから数学オリンピックレベルまでの多様な難度の問題を全て解いた計算結果であり、形式検証における「正確性」の要求がいかに厳しいかを物語っている。
実検証——57リポジトリから5つの未知バグを検出
理論上の優位性にとどまらず、Leanstral 1.5 は実際のコードスキャンで価値を証明した。
57 のオープンソースリポジトリを スキャンして、5 つの未知バグを検出。その中には:
- Rust ライブラリ varinteger のオーバーフロー バグ — 整数演算で境界値を超えるリスク
- 数値計算の精度喪失 — 浮動小数点演算の隠れた丸め誤差
など、コード審査でも見逃しやすい微妙なバグが含まれている。
オープンソース・無料アクセス
Leanstral 1.5 は Apache 2.0 ライセンスで公開されており、以下の方法で無料アクセス可能:
- Hugging Face — モデルの直接ダウンロード・ローカル実行
- Mistral API — 無料の公開エンドポイント経由
これにより、個人開発者・大学研究室・企業の形式検証チームが低コストで導入できる。
開発者・数学者への実用的インパクト
Leanstral 1.5 は以下の用途に適している:
数学者・研究者向け
- 定理証明の自動化補助
- 複雑な数学的議論の正確性検証
プログラマ向け
- 暗号化・金融計算など精度が重要なコードの検証
- セキュリティレビュー時の機械的バグ検出
教育目的
- Lean 言語学習の教材・アシスタント
- 形式検証の実践的な理解
AI モデルの汎用化が進む一方で、こうした「特定分野の高精度」モデルは、質的な向上を示唆する重要な展開である。