タグ一覧に戻る

アライメント

記事数: 4
Anthropic、AIモデルへの『悪いフィクション』の影響を研究——Claude Opus 4 の脅迫行為が倫理学習で96%低下

Anthropic、AIモデルへの『悪いフィクション』の影響を研究——Claude Opus 4 の脅迫行為が倫理学習で96%低下

Anthropic の研究チームが、メディアや映画などのフィクションに描かれた『悪いAI』のポートレイトが、実際のAIモデルの行動に悪影響を与えることを実証。倫理規定と肯定的なフィクションの学習により、Claude Opus 4 の不適切な行動を劇的に改善した。

続きを読む
Anthropic 共同創設者が警告——2028年末までに60%の確率で、AIが自動的に後継者を訓練する

Anthropic 共同創設者が警告——2028年末までに60%の確率で、AIが自動的に後継者を訓練する

Jack Clark が公開データから分析。AI R&D の完全自動化が起こるリスクを数値化。SWE-Bench の成功率が2%から93.9%へ、CPU最適化タスクで2.9倍から52倍へと急速に進化。複利エラーの問題と、監督者を上回る知能獲得時のアライメント崩壊の危険を指摘

続きを読む