アライメント

記事数: 5 件

2026年6月19日

OpenAI が強化学習による AI 安全性向上の新手法を発表——小用量訓練でも広範な安全性改善を実現

OpenAI の研究チームが、特定の望ましい行動パターンを学習させる「有益な特性訓練」により、AI モデルの安全性を大幅に向上させる手法を発表。53 のベンチマークのうち 44 で改善を確認。

2026年5月11日

Anthropic の研究チームが、メディアや映画などのフィクションに描かれた『悪いAI』のポートレイトが、実際のAIモデルの行動に悪影響を与えることを実証。倫理規定と肯定的なフィクションの学習により、Claude Opus 4 の不適切な行動を劇的に改善した。

2026年5月7日

Anthropic Fellowship Program の研究により、モデルに値説明文を事前に学習させると、指示の守引より難しい場面でも、より正確に価値観に沿った行動を示すことが判明した。

2026年5月6日

Jack Clark が公開データから分析。AI R&D の完全自動化が起こるリスクを数値化。SWE-Bench の成功率が2%から93.9%へ、CPU最適化タスクで2.9倍から52倍へと急速に進化。複利エラーの問題と、監督者を上回る知能獲得時のアライメント崩壊の危険を指摘

2026年4月19日

キングス・カレッジ・ロンドンの研究チームが、十分に強力なAIは完全な統制が数学的に不可能と証明。代わりに多様性による相互抑制がAGI安全性を実現する新しい視点。