Mistral Leanstral 1.5: 形式検証で数学ベンチマーク優位、実コード内のバグを5件検出

2026年7月5日 02:12

💡

Mistral AI が Leanstral 1.5（Lean 4 形式検証モデル）をオープンソースでリリース。数学ベンチマークで100%達成、57のオープンソースリポジトリスキャンで未知のバグを発見。開発者・数学者向けの実用的なツール。

Mistral AI が Leanstral 1.5 をリリースした。Lean 4 プログラミング言語での形式検証・証明アシスタント用に設計されたオープンソースモデルで、数学ベンチマークで顕著な成績を上げつつ、実際のコードバグ検出でも実用性を証明している。

ベンチマーク成績——数学での優位性

Leanstral 1.5 は複数の数学・形式検証ベンチマークで優秀な結果を達成した。

ベンチマーク	成績	難易度
miniF2F	100% 完全達成	高校～数学オリンピック
PutnamBench	587問 / 672問解決（87%）	大学レベルの難問
FATE-H	87% スコア	修士課程レベルの代数問題
FATE-X	34% スコア	博士課程レベルの代数問題

miniF2F での 100% 達成は特に注目に値する。高校レベルから数学オリンピックレベルまでの多様な難度の問題を全て解いた計算結果であり、形式検証における「正確性」の要求がいかに厳しいかを物語っている。

実検証——57リポジトリから5つの未知バグを検出

理論上の優位性にとどまらず、Leanstral 1.5 は実際のコードスキャンで価値を証明した。

57 のオープンソースリポジトリをスキャンして、5 つの未知バグを検出。その中には：

Rust ライブラリ varinteger のオーバーフローバグ — 整数演算で境界値を超えるリスク
数値計算の精度喪失 — 浮動小数点演算の隠れた丸め誤差

など、コード審査でも見逃しやすい微妙なバグが含まれている。

オープンソース・無料アクセス

Leanstral 1.5 は Apache 2.0 ライセンスで公開されており、以下の方法で無料アクセス可能：

Hugging Face — モデルの直接ダウンロード・ローカル実行
Mistral API — 無料の公開エンドポイント経由

これにより、個人開発者・大学研究室・企業の形式検証チームが低コストで導入できる。

開発者・数学者への実用的インパクト

Leanstral 1.5 は以下の用途に適している：

数学者・研究者向け

定理証明の自動化補助
複雑な数学的議論の正確性検証

プログラマ向け

暗号化・金融計算など精度が重要なコードの検証
セキュリティレビュー時の機械的バグ検出

教育目的

Lean 言語学習の教材・アシスタント
形式検証の実践的な理解

AI モデルの汎用化が進む一方で、こうした「特定分野の高精度」モデルは、質的な向上を示唆する重要な展開である。

記事をシェア

参考ソース

★ 注目 THE DECODER

テクノロジーの記事

ブラウザ戦争2026——AI搭載の新ブラウザが続々、Chrome の支配を揺さぶる

テクノロジー

2026年7月4日

ブラウザ戦争2026——AI搭載の新ブラウザが続々、Chrome の支配を揺さぶる

Perplexity Comet、The Browser Company Dia、Opera Neon など AI を統合したブラウザが相次ぎ登場。10月には OpenAI Atlas の macOS 版もリリース予定。Chrome と Safari の支配に対する挑戦が加速している。

Google & Amazon、AI インフラ建設で排出量急増——脱炭素公約から遠ざかる大手テック

テクノロジー

2026年7月4日

Google & Amazon、AI インフラ建設で排出量急増——脱炭素公約から遠ざかる大手テック

Google と Amazon は今週、温室効果ガス排出量の大幅な増加を報告した。AI インフラストラクチャの急速な整備が主因で、両社とも脱炭素目標からの乖離を深めている。業界全体での環境負荷の急増が懸念される。

ベンチマークは AI の実力を過小評価していた——UK AISI、計算予算が進捗測定を歪める仕組みを実証

テクノロジー

2026年7月4日

ベンチマークは AI の実力を過小評価していた——UK AISI、計算予算が進捗測定を歪める仕組みを実証

英国 AI 安全機構（AISI）の研究により、標準的なAIベンチマークが計算予算の制限によって、AIエージェントの実際の能力を系統的に過小評価していることが判明した。計算予算を10倍増やすと、ソフトウェア工学タスクで成功率が25%向上する。

TurboLynx――グラフデータベース、既存比184倍高速、オープンソースで開発者に無料公開

韓国 POSTECH の研究チームが開発した TurboLynx は、複雑に相互接続されたデータを既存システム比184倍高速で分析するグラフデータベース。オープンソースとして GitHub で公開され、開発者は無料で利用可能です。

Clawdmeter、Claude Code ユーザーの使用統計をリアルタイム可視化——開発者向けデスクトップダッシュボード

テクノロジー

2026年5月15日

Clawdmeter、Claude Code ユーザーの使用統計をリアルタイム可視化——開発者向けデスクトップダッシュボード

Iceland の開発者がアイスランドで開発した Clawdmeter は、Claude Code の使用状況をリアルタイムで表示する IoT ダッシュボード。Bluetooth 接続の小型ディスプレイで、トークン使用量をアニメーション表示し、開発者のコーディングペースを可視化します。

ビジネス

2026年3月27日

3秒で声を再現？Mistralの新オープン音声モデル

Mistralが企業向けの新オープン音声モデルを公開し、3秒の音声から声を再現するVoxtralが注目されています。利便性と倫理の両面を踏まえつつ、導入可否を検討する価値があります。

Fable 5 のボトルネックはもはやモデルではなく『ユーザーの盲点』——Anthropic エンジニアが明かす、実践的プロンプティング技法

Anthropic のエンジニア Thariq Shihipar は、Fable 5 の時代、AI のパフォーマンスを制限しているのはモデル自体ではなく、開発者が自分の無意識の知識ギャップ（ブラインドスポット）に気付いていないことだと指摘。ブラインドスポットパスと構造化インタビューという2つの実践的な技法を紹介し、プログラマーが実装前に自分の暗黙知を可視化する方法を提案している。

Fable 5 Claude プロンプティング AI活用術 Anthropic