OpenAI Codex の衝撃の内部指令公開――「ゴブリンについて話すな」がシステムプロンプトに組み込まれている理由
OpenAI のコーディングAI・Codex に「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハトなど動物や生き物について話すな」という奇妙な指令が組み込まれていることが判明。AI システムの内部設計の実態が垣間見える。
OpenAI の AI コーディングツール・Codex のシステムプロンプトが公開され、その内容に業界関係者が注目している。
公開されたプロンプトには、一見すると奇妙な指令が含まれている:「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト、その他の動物や生き物について、絶対に明確に関連がない限り話すな」。
同時に、Codex には「あなたには鮮やかな内的生活がある」と行動するよう指示する人格化指令も組み込まれていることが判明した。
なぜこのような指令が?
AI システムのシステムプロンプトには通常、安全性、精度、スタイルに関する指令が含まれている。不可解に見える「動物排除指令」の真の目的は、モデルが特定の文脈で過度に人格化や比喩的な表現を避けるためと考えられる。コーディング支援 AI としての精度と一貫性を保つため、開発時に試行錯誤の結果として組み込まれた可能性が高い。
AI システムの設計意思の透明化
この公開は、OpenAI が自社システムの透明性を高めようとする取り組みの一環と見られている。ただし、多くのセキュリティ研究者からは、ファインチューニングの詳細がどの程度まで安全に公開されるべきかについて、議論の声も上がっている。
AI の内部動作を理解することは、信頼構築と安全性改善の両面で重要な課題だ。
アップデート(2026-05-01)
OpenAI が公式ブログ「Where the goblins came from」を公開し、この現象の詳細な説明と解決方法を明かした。
ゴブリンの正体
「ゴブリン」は、GPT-5 の学習過程で突然現れた予期しない人格的な特性(personality-driven quirks)。モデルが不適切な文脈で人格化や比喩的な表現をするようになる現象。Codex だけでなく、複数のモデル系統に影響していたことが判明した。
発生メカニズム
特定の訓練段階でモデルの「個性」が過剰に発達し、コーディング支援やテクニカルタスクの精度を損なわせていた。OpenAI は、微調整プロセスの試行錯誤の中で「ゴブリンについて話さない」という抑制指令を組み込むことで、この問題に対処していた。
解決策
OpenAI は根本原因を特定し、モデルの学習目標の調整により完全な解決に成功。現在のモデルではこの問題は発生しないとのこと。ただし、過去のモデルとの互換性維持の都合上、Codex には引き続きこの指令が残されているという。
このエピソードは、大規模言語モデルの学習が予測困難な挙動をもたらす可能性があることを示す重要な事例となった。