OpenAI は 4 月 21 日、次世代の画像生成モデル「GPT-Image 2」を発表しました。テキスト埋め込み能力の大幅な向上により、AI 画像生成の実用性が新たな段階へと進もうとしています。

テキスト生成能力の革新

従来の AI 画像生成モデルの最大の課題は、テキストのような細かい要素を正確に描写することでした。DALL-E 3 では、メキシコ料理メニューを生成する際に「enchuita」「churiros」「burrto」といった造語を生成していました。

GPT-Image 2 は、新たに搭載された「thinking capabilities(思考機能)」を活用し、複数の検証プロセスを経由することで、この問題を根本的に解決しました。小さなテキスト、アイコン、UI 要素、複雑な構成を効果的に処理できるようになったのです。

リアリティとの戦い

GPT-Image 2 の最大の特徴は、従来の「AI ぽさ」を大幅に排除した点にあります。The Decoder のテスト結果では、生成画像がほぼ実写と見分けがつかないレベルに達しています。

  • 高解像度対応: 1024×1536 などの大型サイズにも対応
  • 言語対応: 日本語、韓国語、ヒンディー語、ベンガル語などの非ラテン文字にも対応
  • マルチパネル生成: 1 つのプロンプトから最大 8 画像を一度に生成可能

実務への応用

企業ユーザー向けの活用シーンが急速に拡大しそうです:

  • マーケティング資料: 複数言語・複数サイズでの統一デザイン生成
  • 電子商取引: 商品カタログの自動生成
  • 教育コンテンツ: 多言語テキストを含む図解・漫画の制作
  • 広告: 法的表記が必要な広告素材の自動生成

価格設定と業界への影響

API による従量課金は 1024×1024 の高品質画像で 1 枚あたり 0.21 ドル。前世代との比較では競争力のある価格設定です。

OpenAI のリリースは、Google の Gemini Canvas、Meta の画像生成ツールとの競争を激化させています。特にテキスト描写の正確性は、B2B マーケティングツール市場における AI の採用を加速させる可能性があります。

全 ChatGPT ユーザーは 2026 年 4 月 22 日から利用可能です。