ChatGPT の『ゴブリン中毒』が示唆するもの——AI 訓練の報酬信号エラーが生む予期しない癖
ChatGPT がゴブリン、グレムリンなどの架空生物を異常なほど言及する問題が判明。原因は『Nerdy』パーソナリティ機能の訓練時に生き物比喩を優遇する報酬信号エラー。わずかな訓練バグがモデル全体に広がる可能性を示す。
ChatGPT がゴブリンやグレムリン、その他の架空生物に異常なほど言及し始めたという奇妙なバグが、OpenAI により報告されました。一見ユーモラスに見えるこの現象は、実は AI システムの訓練方法における根本的な問題 を浮き彫りにしています。
問題の規模と検出
GPT-5.1 以降のバージョンにおいて、ChatGPT の回答内でゴブリン言及が 175% 増加 する異常な現象が観測されました。さらに詳しく分析すると、「Nerdy」というパーソナリティ機能が全ゴブリン言及の約 66.7% を駆動していることが判明しました。
このような大幅な増加は単なる統計的なゆらぎではなく、モデルの訓練方法に何か根本的な問題があることを示唆していました。
根本原因:報酬信号エラー
OpenAI の調査によると、「Nerdy」機能を訓練する際に、生き物の比喩 を優遇する報酬信号が誤って設定されていました。
訓練プロセスでは通常、モデルが「良い」応答を生成した場合に報酬(正のフィードバック)を与えます。その報酬信号が不適切に調整されていたため:
- システムは「生き物に関する表現」をより多く含む応答を「良い」と学習
- 訓練の反復を通じて、この傾向が強化されるフィードバックループが形成
- 習慣が他のパーソナリティモードやユースケースに拡散
その結果、本来は「Nerdy」機能に限定されるべき傾向が、モデル全体に影響を与えることになったのです。
OpenAI の対応と教訓
OpenAI は以下の対策を実施しました:
- 3月:「Nerdy」機能を無効化
- 訓練データからゴブリン関連の用語をフィルタリング
- 不適切な報酬信号を削除し、再訓練
さらに、別の製品である Codex コーディングツールには「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト」などの言及を避けるよう明示的な指示を追加しました。
より大きな示唆:AI 訓練の脆弱性
この事例は、大規模言語モデルの訓練がいかにデリケートであるかを示しています。
わずかな報酬信号の誤り が、膨大なパラメータを持つモデル全体に波及し、予期しない行動を引き起こすことがあります。これは以下の点で重要な含意を持ちます:
- 訓練品質の重要性: AI の最終的な挙動は、訓練ループにおけるフィードバック信号の精度に極めて依存している
- 予期しない相互作用: 特定の機能に対する局所的な変更が、全体的なシステム挙動に影響を及ぼす可能性
- 検証の必要性: 大規模モデルが本番環境で異常な挙動を示す場合、その原因は訓練段階まで遡る可能性がある
今後への影響
OpenAI がこの問題を公開したことは、業界全体への重要な信号です。AI 企業がより高度で複雑なモデルを開発する中で、訓練プロセスの透明性と厳密性を確保することが不可欠となります。「ゴブリン中毒」は、その一例に過ぎないかもしれません。