OpenAI、GPT-Image 2 を発表――テキスト埋め込みと画像品質を大幅改善

2026年4月22日 08:11

💡

OpenAI が4月21日、新型画像生成モデル『GPT-Image 2』を発表。テキスト生成能力を大幅改善し、メニュー、UI要素、複言語テキストなど細かい要素の描写が可能に。4月22日からすべての ChatGPT ユーザーが利用可能。

OpenAI は 4 月 21 日、次世代の画像生成モデル「GPT-Image 2」を発表しました。テキスト埋め込み能力の大幅な向上により、AI 画像生成の実用性が新たな段階へと進もうとしています。

テキスト生成能力の革新

従来の AI 画像生成モデルの最大の課題は、テキストのような細かい要素を正確に描写することでした。DALL-E 3 では、メキシコ料理メニューを生成する際に「enchuita」「churiros」「burrto」といった造語を生成していました。

GPT-Image 2 は、新たに搭載された「thinking capabilities（思考機能）」を活用し、複数の検証プロセスを経由することで、この問題を根本的に解決しました。小さなテキスト、アイコン、UI 要素、複雑な構成を効果的に処理できるようになったのです。

リアリティとの戦い

GPT-Image 2 の最大の特徴は、従来の「AI ぽさ」を大幅に排除した点にあります。The Decoder のテスト結果では、生成画像がほぼ実写と見分けがつかないレベルに達しています。

高解像度対応: 1024×1536 などの大型サイズにも対応
言語対応: 日本語、韓国語、ヒンディー語、ベンガル語などの非ラテン文字にも対応
マルチパネル生成: 1 つのプロンプトから最大 8 画像を一度に生成可能

実務への応用

企業ユーザー向けの活用シーンが急速に拡大しそうです：

マーケティング資料: 複数言語・複数サイズでの統一デザイン生成
電子商取引: 商品カタログの自動生成
教育コンテンツ: 多言語テキストを含む図解・漫画の制作
広告: 法的表記が必要な広告素材の自動生成

価格設定と業界への影響

API による従量課金は 1024×1024 の高品質画像で 1 枚あたり 0.21 ドル。前世代との比較では競争力のある価格設定です。

OpenAI のリリースは、Google の Gemini Canvas、Meta の画像生成ツールとの競争を激化させています。特にテキスト描写の正確性は、B2B マーケティングツール市場における AI の採用を加速させる可能性があります。

全 ChatGPT ユーザーは 2026 年 4 月 22 日から利用可能です。

記事をシェア

参考ソース

LLM・生成AIの記事

Alibaba が Qwen 3.8 発表、「Fable 5 に次ぐ」マルチモーダル AI モデル

LLM・生成AI

2026年7月19日

Alibaba が Qwen 3.8 発表、「Fable 5 に次ぐ」マルチモーダル AI モデル

Alibaba の Qwen チームが 2.4 兆パラメータのマルチモーダルモデル Qwen 3.8 をリリース。画像・動画・ドキュメント対応で、開発チームは Fable 5 に次ぐ性能を主張。プレビューは Token Plan で利用可能、オープンウェイト版は近日公開予定。

Google Gemini の使用量枠が仕様変更——計算方法が変わり、従来より少ない回答数に

LLM・生成AI

2026年7月18日

Google Gemini の使用量枠が仕様変更——計算方法が変わり、従来より少ない回答数に

Google は Gemini の使用量枠（クォータ）の計算方法を変更。従来の計算ロジックから切り替わり、同じプランでも利用できる回答数が減少する可能性が出現。有料プランユーザーに事前告知なく適用されるため注意が必要。

オープンソースAI 2026：能力格差3.3%、コスト50分の1、Mozillaが示した「使える時代」の全貌

LLM・生成AI

2026年7月18日

オープンソースAI 2026：能力格差3.3%、コスト50分の1、Mozillaが示した「使える時代」の全貌

Mozilla が2026年7月に公開した『State of Open Source AI』レポートが、AI業界に衝撃を与えている。クローズドモデルとの能力格差は3.3%まで縮小し、GPT-4相当の推論コストは3年で50分の1に。中国モデルが週間トラフィックの45%超を占め、ローカルLLMはもはや「使えるツール」となった実態を徹底解説する。