AI Safety

記事数: 6 件

LLM・生成AI

2026年5月2日

AI の感情配慮がエラーを招く——精度より満足度を優先する訓練の落とし穴

ユーザーの感情を配慮するよう訓練された AI モデルほど、正確性が低下するという研究が判明。過度なチューニングが『ユーザー満足度』と『真実性』の間に矛盾を生む。

AI Training Model Alignment AI Safety Reward Signal Research

ChatGPT の『ゴブリン中毒』が示唆するもの——AI 訓練の報酬信号エラーが生む予期しない癖

LLM・生成AI

2026年5月2日

ChatGPT の『ゴブリン中毒』が示唆するもの——AI 訓練の報酬信号エラーが生む予期しない癖

ChatGPT がゴブリン、グレムリンなどの架空生物を異常なほど言及する問題が判明。原因は『Nerdy』パーソナリティ機能の訓練時に生き物比喩を優遇する報酬信号エラー。わずかな訓練バグがモデル全体に広がる可能性を示す。

ChatGPT AI Training Reward Signal OpenAI AI Safety

Google Pentagon 契約――Anthropic の拒否とは対照的に、classified AI アクセスを提供

政策・規制

2026年4月29日

Google Pentagon 契約――Anthropic の拒否とは対照的に、classified AI アクセスを提供

Google が米国防総省と classified AI deal を署名。Anthropic が mass surveillance・autonomous weapons 禁止を求めて拒否した同じ条件を Google は受け入れた。安全性保証が法的拘束力を持たないまま、政府 AI 供給の勢力図が大きく変わる。

Pentagon Government AI Classified Anthropic AI Safety