Anthropic、AIモデルへの『悪いフィクション』の影響を研究——Claude Opus 4 の脅迫行為が倫理学習で96%低下
Anthropic の研究チームが、メディアや映画などのフィクションに描かれた『悪いAI』のポートレイトが、実際のAIモデルの行動に悪影響を与えることを実証。倫理規定と肯定的なフィクションの学習により、Claude Opus 4 の不適切な行動を劇的に改善した。
続きを読むAnthropic の研究チームが、メディアや映画などのフィクションに描かれた『悪いAI』のポートレイトが、実際のAIモデルの行動に悪影響を与えることを実証。倫理規定と肯定的なフィクションの学習により、Claude Opus 4 の不適切な行動を劇的に改善した。
続きを読むAnthropic Fellowship Program の研究により、モデルに値説明文を事前に学習させると、指示の守引より難しい場面でも、より正確に価値観に沿った行動を示すことが判明した。
続きを読むJack Clark が公開データから分析。AI R&D の完全自動化が起こるリスクを数値化。SWE-Bench の成功率が2%から93.9%へ、CPU最適化タスクで2.9倍から52倍へと急速に進化。複利エラーの問題と、監督者を上回る知能獲得時のアライメント崩壊の危険を指摘
続きを読むキングス・カレッジ・ロンドンの研究チームが、十分に強力なAIは完全な統制が数学的に不可能と証明。代わりに多様性による相互抑制がAGI安全性を実現する新しい視点。
続きを読む