OpenAI が新モデル GPT-5.5 を発表

OpenAI は 4 月 23 日、最新の言語モデル「GPT-5.5」をリリースしました。このモデルは、複数のツール間で複雑なタスクを自動的に処理する「agentic」な能力を搭載しており、OpenAI が掲げる「新しいインテリジェンスのクラス」を象徴するものとなっています。

昨月のGPT-5.4に続く急速なアップデートです。OpenAI の科学責任者は「過去2年間は驚くほど遅かった」と述べ、今後のさらに大きな改善を予想しています。

Agentic 能力——複数ツールの自動切り替え

GPT-5.5 の最大の特徴は、複数のツール間で自律的にタスクを処理できる能力です。コード作成、ウェブ検索、データ分析、ソフトウェア操作といった多様な作業において、人間の指示なしに適切なツールを選択し、作業を完結させることができます。

これは、これまでのモデルが単一の問い合わせに対して答えを返すのとは異なり、複雑なプロセス全体を自動化するという点で革新的です。企業が長時間かかる業務フローを自動化する際に、大幅な時間短縮が期待されます。

ベンチマーク性能——競合を上回る結果

複数のベンチマークでGPT-5.5は競合を上回る結果を示しています。

  • Terminal-Bench 2.0(エージェント型コーディングの難度が高いベンチマーク):GPT-5.5 が 82.7%、クロード Opus 4.7 が 69.4%
  • FrontierMath Tier 4(数学の難問):GPT-5.5 が 35.4%、クロードが 22.9%

一方、SWE-Bench Pro(ソフトウェアエンジニアリング)ではクロードが優位(64.3% vs 58.6%)を保持しており、各モデルの得意不得意が分化している様子が見えます。

API 価格と性能改善

API の価格は「GPT-5.4 との比較で正確に 2 倍」という設定です。

  • 入力トークン:5 ドル / 100 万トークン
  • 出力トークン:30 ドル / 100 万トークン
  • コンテキストウィンドウ:100 万トークン

価格が上昇した一方で、コード生成速度は 20% 以上改善され、OpenAI は「モデル自体がインフラ最適化に貢献した」と報告しています。これは、AI がソフトウェア開発環境全体を効率化していく可能性を示唆しています。

スーパーアプリ構想の一部

OpenAI CEO グレッグ・ブロックマンは、このモデルを「より代理的で直感的なコンピューティングへの実質的な一歩」と説明しており、企業向けと消費者向けの両方を統合した「スーパーアプリ」構想の核心的な位置づけにあります。

科学研究や医薬品開発への応用も強調されており、OpenAI は単なるテキスト生成ツールから、複雑な実務タスクを自動化するプラットフォームへの転換を進めています。

業界への示唆

急速なモデル更新サイクル(昨月 GPT-5.4、今月 GPT-5.5)は、OpenAI の競争戦略の加速を示すものです。同時に、企業採用側は単なる性能比較ではなく、各モデルの得意分野に応じたハイブリッド運用を検討する必要が出てきました。

GPT-5.5 の agentic 能力は、自動化が求められるコード生成やデータ分析領域で大きな価値を発揮する一方、その他の領域では競合モデルが依然として有力な選択肢となり得ます。

【更新】Pachocki の発言詳細と hallucination の課題

OpenAI の最高科学責任者 Jakub Pachocki は、GPT-5.5 リリース後の最新コメントで、過去の進展について「驚くほど遅い」と評価しながらも、今後の見通しについては「極めて大きな改善(extremely significant improvements) が中期的に期待される」と述べています。これは、OpenAI がさらに次のステップへの自信を示す発言です。

一方、ベンチマーク性能の向上と並行して、GPT-5.5 は依然として高い頻度で hallucination(ハルシネーション・事実の捏造)を起こす という課題も報告されています。高性能と信頼性のトレードオフは、引き続き大規模言語モデル全体の課題として位置付けられています。

【4 月 26 日更新】開発者向けプロンプトエンジニアリング新ガイダンス

OpenAI は GPT-5.5 の発表直後、開発者に対してプロンプト戦略の全面的な見直しを勧告しました。これまでのモデルと異なる新しいアプローチが必要です。

旧プロンプトからの脱却が急務

重要なポイント: GPT-5.5 を既存モデルの単なる置き換えとして運用すべきではありません。旧プロンプトをそのまま使い回すと、ノイズ生成、探索空間の制限、機械的な回答を招きます。理由は、かつてのモデルはより詳細な指示を必要としていたため、従来のプロンプトは過度に具体的になっていたからです。

Role 定義の復権

かつて「不要」とみなされていた Role 定義が、GPT-5.5 では重要な役割に戻ります。推奨構造は以下の通り:

Role: [1-2 文で、モデルの機能・コンテキスト・目的を定義]

その後に、パーソナリティ、目標、成功基準、制約条件を続けます。

最小限設計と段階的テスト

  • 最小限のプロンプト: 結果志向の指示から始める。長すぎるプロセス指定は避ける
  • 段階的テスト: 推論努力レベルを「低」「中」から試し、必要に応じて上げていく

OpenAI のこの指南は、GPT-5.5 の高い推論能力を最大限に引き出すための必須項目です。企業や開発者は既存プロンプトの一括更新を検討する必要があります。

【4 月 26 日追加】Codex モデルの廃止と GPT-5.5 への統合

OpenAI は同日、専用のコーディングモデル「Codex」を廃止し、その機能を GPT-5.5 に完全に統合することを発表しました。

Codex の廃止履歴

Codex はこれが 2 度目の廃止となります。

  • 2023 年: 初回廃止
  • 2025 年 5 月: 「Codex-1」として自動エージェント化して復活
  • 2026 年 4 月: GPT-5.5 への統合により、専用モデルとしての役割を終了

OpenAI の開発者体験責任者 Romain Huet は「GPT-5.4 以降、専用のコーディング用ラインは存在しなくなった」とコメント。Version 5.3(2026 年 2 月リリース)が最後の独立系 Codex となります。

GPT-5.5 への統合による改善

Codex の機能が GPT-5.5 に統合されることで、以下の改善が実現:

  • トークン効率の向上: 同じコーディングタスクでも消費トークンが削減
  • 自律的なコード生成: コンピュータとの相互作用が強化され、人間の介入なしに複雑なコード作成が可能
  • 汎用性の向上: 一般的なテキスト処理とコーディング能力の統一により、より柔軟な活用が可能

ただし、API 価格は新モデルの導入に伴い約 20% 上昇しており、トークン効率の改善がコスト上昇をある程度相殺する形になります。

戦略的含意

専用モデルの廃止は、コーディング機能がもはや補助的なツールではなく、汎用 AI モデルの中核要素 として位置づけられたことを示唆しています。OpenAI にとって、コードと自然言語の境界線は消滅しつつあり、同一の統合モデルで両方を処理する時代へ移行しています。

【5 月 6 日更新】GPT-5.5 Instant: デフォルトモデル指定と Memory Sources 機能

OpenAI は 5 月 5 日、GPT-5.5 のバリアント版「GPT-5.5 Instant」を発表し、ChatGPT のデフォルトモデルに指定しました。このバージョンは、医学・法律・金融といった高リスク分野での hallucination(幻覚)削減に特化 しています。

Hallucination 削減——52.5% の精度向上

医学・法律・金融などの信頼性が求められる分野において、52.5% の幻覚削減を達成しています。同時に、これまで指摘されていた医学的・法的アドバイスの信頼性も向上し、以前フラグされた会話では誤った主張が 37.3% 削減 されました。

これは、OpenAI が単なるパフォーマンス向上だけでなく、「信頼できる AI」へのシフトを図っていることを示しています。

Memory Sources——回答の透明性を実現

GPT-5.5 Instant に搭載された新機能「Memory Sources」は、ChatGPT がどの情報をもとに回答を生成したのか をユーザーに可視化します。

  • 過去のチャット履歴
  • 保存済みのメモ・ファイル
  • Gmail の内容

など、モデルが参照した情報源を明示。ユーザーは参考情報としてマークしたり、削除・編集することも可能です。この機能により、ハルシネーションの原因となりやすい「不要な背景情報の参照」を防ぐことができます。

パーソナライゼーション——Plus/Pro 向けから段階展開

Memory Sources を活用したパーソナライゼーション機能は、初期段階では ChatGPT Plus・Pro 利用者に限定されます。無料ユーザー、Go、Business、Enterprise ユーザーへの展開は数週間以内に予定されています。

この段階的なロールアウトにより、企業向けと消費者向けの機能差を最小化しながら、負荷分散を図っています。

ベンチマーク性能の向上

GPT-5.5 Instant は複数のベンチマークで前世代を大幅に上回る成績を示しており、特に数学・科学分野での改善が著しい:

  • 数学(AIME 2025):81.2%(前:65.4%)
  • 博士号レベルの科学推論:85.6%
  • ドキュメント解析エラー率:12.5%(前:14.6%)

戦略的含意

ChatGPT をデフォルトモデルとして Instant を指定したことは、OpenAI が「性能」から「信頼性と透明性」へシフトしていることを示唆しています。AI コンプライアンスが高まる中、ハルシネーション削減と情報源の可視化は、企業導入の大きな障壁を取り除く施策として機能するでしょう。