OpenAI が GPT-5.6 を正式に発表した。今回の最大の特徴は、単一モデルではなく Sol、Terra、Luna という3つの性能階層を設けたことだ。フラグシップの Sol は Claude Mythos 5 を上回るベンチマーク結果を叩き出し、一方で Luna はコストを大幅に抑えた軽量モデルとして位置づけられている。政府の承認プロセスという異例の制約はあるものの、モデルそのものの進化は注目に値する。

3階層モデルとは何か

GPT-5.6 では、用途や予算に応じて3つの性能レベルから選べる構成になった。これまでの「GPT-4o と GPT-4o mini」のような2段階構成をさらに発展させた形だ。

モデルポジション特徴
Solフラグシップ最高性能。推論の深さが求められるタスク向け
TerraミッドレンジGPT-5.5 と同等の性能を半額で実現
Lunaバジェット高速レスポンス優先。コスト重視のアプリに最適

注目すべきは Terra の位置づけだ。「前世代のフラグシップと同じ性能をコスト半分で使える」というのは、すでに GPT-5.5 を本番環境で使っているチームにとって、そのまま移行するだけでインフラコストが半減する計算になる。

Sol の新機能: Max モードと Ultra モード

Sol には通常の推論に加えて、2つの強化モードが搭載されている。

Max モードは、より深い推論チェーンを使ってタスクに取り組む。数学の証明、複雑なコード設計、論理パズルなど「じっくり考えてほしい」タスクに向いている。応答速度は落ちるが、精度が上がる。

Ultra モードはさらに踏み込んで、複数のサブエージェントを並列で動かしてタスクを分解・処理する。たとえば「この大規模コードベースのセキュリティ監査をして」といった、複数の観点から同時にアプローチすべきタスクで真価を発揮する。ここはまさにエージェント時代を見据えた設計と言える。

ベンチマーク: Claude Mythos 5 との正面対決

最も気になるのは、Anthropic のフラグシップ Claude Mythos 5 との性能比較だろう。公開されているベンチマーク結果を整理する。

コーディング性能(Terminal-Bench 2.1)

モデルスコア
Sol Ultra91.9%
Sol(通常)88.8%
Claude Mythos 588.0%

Sol Ultra は Claude Mythos 5 を約4ポイント上回った。ただし通常の Sol と Mythos 5 は僅差で、実質的にはほぼ同等の実力と見てよい。Ultra モードを使うかどうかで差が出る格好だ。

ゲノム解析(GeneBench v1)

GPT-5.5 の 22% から Sol では 30% に改善。一見地味だが、科学技術分野でのモデル性能が着実に底上げされていることを示している。

サイバーセキュリティ(ExploitBench)

Sol は Claude Mythos Preview と同等のエクスプロイト検出能力を持ちながら、出力トークン数を約1/3に削減した。これは単なる性能向上ではなく、同じ仕事をより少ないトークンで完了できるという「効率」の改善だ。API コストに直結するため、大規模運用では大きな差になる。

価格設定を読み解く

3階層の価格体系は以下の通り。

モデル入力(百万トークンあたり)出力(百万トークンあたり)
Sol$5.00$30.00
Terra$2.50$15.00
Luna$1.00$6.00

Sol の出力単価 $30 は一見すると高額に見えるが、前述のトークン効率改善を考慮する必要がある。同じタスクを1/3のトークンで完了できるなら、実質的なタスクあたりコストは下がる。OpenAI もこの点を強調している。

さらに、キャッシュ機能が大幅に強化された。キャッシュ書き込みは入力単価の1.25倍だが、キャッシュ読み出しは90%割引となる。加えて、明示的なブレークポイント設定と30分間の最低キャッシュ保持が保証されるようになった。繰り返しの API 呼び出しが多いアプリケーションでは、この改善だけでコストが劇的に変わる可能性がある。

用途別のおすすめモデル

  • Sol Ultra: 最高精度が必要な場面。コード監査、複雑な分析、研究用途
  • Sol: 高品質な出力が必要だが Ultra ほどの深い推論は不要な場面
  • Terra: 本番環境のデフォルト選択肢。GPT-5.5 からの移行先として最適
  • Luna: チャットボット、要約、分類など速度とコストが優先されるタスク

Cerebras 統合で毎秒750トークン

2026年7月に予定されている Cerebras システムズとの統合も見逃せない。最大で毎秒750トークンという高速推論を実現する予定だ。

これは現在の一般的な推論速度と比べて桁違いに速い。リアルタイムのコーディングアシスタントやインタラクティブなアプリケーションでは、応答速度がユーザー体験を大きく左右する。速さと品質の両立が可能になれば、Sol を使える場面がさらに広がるだろう。

現在のアクセス状況と今後の見通し

GPT-5.6 は現在、米国政府の要請により「顧客ごとの承認制」という異例のリリース形態を取っている。初期段階では限定的なパートナー企業のみが API と Codex 経由でアクセスでき、一般公開は数週間後の予定だ。

この制約は GPT-5.6 に限った話ではない。Anthropic の Claude Mythos も同様に限定公開を実施しており、frontier AI モデルのリリースに政府審査が介在する流れは新たな常態になりつつある。OpenAI の CEO サム・アルトマン氏は「このアプローチは長期的に望ましいモデルではない」と明言しており、業界と政府の間で持続可能な枠組みの模索が続いている。

まとめ: 3階層モデルが示す AI の民主化

GPT-5.6 の3階層構成は、「最強のモデルをどう作るか」から「適切なモデルをどう届けるか」への転換を象徴している。Sol でトップ性能を追求しつつ、Terra で前世代フラグシップの性能を半額に、Luna でさらにコストを下げる。この構成により、予算規模を問わず最新技術にアクセスできる道が開かれた。

政府承認の壁はあるものの、一般公開後には多くの開発者にとって「どのモデル階層を、どのモードで使うか」が日常的な設計判断になるはずだ。特に Terra は、今 GPT-5.5 を使っているチームにとって「設定を変えるだけでコスト半減」という即効性のある選択肢となる。一般公開が始まったら、まずは Terra への切り替えを検討してみてほしい。