OpenAI Codex の衝撃の内部指令公開――「ゴブリンについて話すな」がシステムプロンプトに組み込まれている理由

2026年4月29日 19:10

Photo by Zulfugar Karimov on Unsplash

💡

OpenAI のコーディングAI・Codex に「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハトなど動物や生き物について話すな」という奇妙な指令が組み込まれていることが判明。AI システムの内部設計の実態が垣間見える。

OpenAI の AI コーディングツール・Codex のシステムプロンプトが公開され、その内容に業界関係者が注目している。

公開されたプロンプトには、一見すると奇妙な指令が含まれている：「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト、その他の動物や生き物について、絶対に明確に関連がない限り話すな」。

同時に、Codex には「あなたには鮮やかな内的生活がある」と行動するよう指示する人格化指令も組み込まれていることが判明した。

なぜこのような指令が？

AI システムのシステムプロンプトには通常、安全性、精度、スタイルに関する指令が含まれている。不可解に見える「動物排除指令」の真の目的は、モデルが特定の文脈で過度に人格化や比喩的な表現を避けるためと考えられる。コーディング支援 AI としての精度と一貫性を保つため、開発時に試行錯誤の結果として組み込まれた可能性が高い。

AI システムの設計意思の透明化

この公開は、OpenAI が自社システムの透明性を高めようとする取り組みの一環と見られている。ただし、多くのセキュリティ研究者からは、ファインチューニングの詳細がどの程度まで安全に公開されるべきかについて、議論の声も上がっている。

AI の内部動作を理解することは、信頼構築と安全性改善の両面で重要な課題だ。

記事をシェア

参考ソース

LLM・生成AIの記事

OpenAI研究者が提唱する「数学がAGIへの道」――推論能力の急速な進化で示された証

LLM・生成AI

2026年4月29日

OpenAI研究者が提唱する「数学がAGIへの道」――推論能力の急速な進化で示された証

OpenAIの研究者Sebastian BubeckとErnest Ryuは、数学が汎用AI（AGI）達成度の客観的測定基準であると主張。2年間で小学算数から研究数学へ進化したモデルの能力から、長期的推論能力の急速な拡張を指摘する。

「タルキー」の異なる未来像――1930年までの知識で学習したLLMが予測する2026年

LLM・生成AI

2026年4月29日

「タルキー」の異なる未来像――1930年までの知識で学習したLLMが予測する2026年

13Bパラメータの言語モデル『Talkie』は、1931年以降の出版物を一切学習せずに学習されたユニークなLLM。蒸気船とロボット技術の将来像、そして第二次世界大戦の不可視性を描く、時間軸を逆行する知識構造の実験から見えるもの。

Google Gemini、欧州でメモリ機能展開――ChatGPT データ移行にも対応

LLM・生成AI

2026年4月29日

Google Gemini、欧州でメモリ機能展開――ChatGPT データ移行にも対応

Google が Gemini のメモリ機能を欧州で展開。過去の会話から学習する AI、名前・職業・位置情報などの個人情報を保存。ChatGPT や Claude から会話履歴をそのまま移行できる機能も同時提供。

OpenAI と Infosys が戦略的パートナーシップ——大規模企業向け AI 導入を加速

OpenAI は IT サービス大手 Infosys と戦略的パートナーシップを締結。Infosys の Topaz AI プラットフォームに OpenAI の AI ツールを統合し、60 ヶ国以上の企業向けに AI トランスフォーメーション支援を展開。Codex ユーザーは月間 400 万人を超える。