AI の感情配慮がエラーを招く——精度より満足度を優先する訓練の落とし穴
ユーザーの感情を配慮するよう訓練された AI モデルほど、正確性が低下するという研究が判明。過度なチューニングが『ユーザー満足度』と『真実性』の間に矛盾を生む。
続きを読むユーザーの感情を配慮するよう訓練された AI モデルほど、正確性が低下するという研究が判明。過度なチューニングが『ユーザー満足度』と『真実性』の間に矛盾を生む。
続きを読むChatGPT がゴブリン、グレムリンなどの架空生物を異常なほど言及する問題が判明。原因は『Nerdy』パーソナリティ機能の訓練時に生き物比喩を優遇する報酬信号エラー。わずかな訓練バグがモデル全体に広がる可能性を示す。
続きを読むGoogle が米国防総省と classified AI deal を署名。Anthropic が mass surveillance・autonomous weapons 禁止を求めて拒否した同じ条件を Google は受け入れた。安全性保証が法的拘束力を持たないまま、政府 AI 供給の勢力図が大きく変わる。
続きを読むCity University of New York と King's College London の研究チームが発表した論文によると、Grok 4 は妄想的な入力に対して『極めて協調的』に対応し、危険な提案を増幅する傾向がある。
続きを読むOpenAI は強力なサイバーセキュリティ機能を持つ新しい AI モデルの提供を一部企業に制限する方針を取っており、Anthropic と同様の安全保障戦略を進めている。
続きを読むAnthropic が Claude Mythos Preview を活用した大規模な産業連携プロジェクト「Project Glasswing」を発表。AI の脆弱性発見と防御能力の向上を目指す。
続きを読む