OpenAI、GPT-Image 2 を発表――テキスト埋め込みと画像品質を大幅改善
OpenAI が4月21日、新型画像生成モデル『GPT-Image 2』を発表。テキスト生成能力を大幅改善し、メニュー、UI要素、複言語テキストなど細かい要素の描写が可能に。4月22日からすべての ChatGPT ユーザーが利用可能。
OpenAI は 4 月 21 日、次世代の画像生成モデル「GPT-Image 2」を発表しました。テキスト埋め込み能力の大幅な向上により、AI 画像生成の実用性が新たな段階へと進もうとしています。
テキスト生成能力の革新
従来の AI 画像生成モデルの最大の課題は、テキストのような細かい要素を正確に描写することでした。DALL-E 3 では、メキシコ料理メニューを生成する際に「enchuita」「churiros」「burrto」といった造語を生成していました。
GPT-Image 2 は、新たに搭載された「thinking capabilities(思考機能)」を活用し、複数の検証プロセスを経由することで、この問題を根本的に解決しました。小さなテキスト、アイコン、UI 要素、複雑な構成を効果的に処理できるようになったのです。
リアリティとの戦い
GPT-Image 2 の最大の特徴は、従来の「AI ぽさ」を大幅に排除した点にあります。The Decoder のテスト結果では、生成画像がほぼ実写と見分けがつかないレベルに達しています。
- 高解像度対応: 1024×1536 などの大型サイズにも対応
- 言語対応: 日本語、韓国語、ヒンディー語、ベンガル語などの非ラテン文字にも対応
- マルチパネル生成: 1 つのプロンプトから最大 8 画像を一度に生成可能
実務への応用
企業ユーザー向けの活用シーンが急速に拡大しそうです:
- マーケティング資料: 複数言語・複数サイズでの統一デザイン生成
- 電子商取引: 商品カタログの自動生成
- 教育コンテンツ: 多言語テキストを含む図解・漫画の制作
- 広告: 法的表記が必要な広告素材の自動生成
価格設定と業界への影響
API による従量課金は 1024×1024 の高品質画像で 1 枚あたり 0.21 ドル。前世代との比較では競争力のある価格設定です。
OpenAI のリリースは、Google の Gemini Canvas、Meta の画像生成ツールとの競争を激化させています。特にテキスト描写の正確性は、B2B マーケティングツール市場における AI の採用を加速させる可能性があります。
全 ChatGPT ユーザーは 2026 年 4 月 22 日から利用可能です。