Anthropic、言語モデルが価値観を学ぶ仕組みを解明——事前学習で遵守率が大幅向上
Anthropic Fellowship Program の研究により、モデルに値説明文を事前に学習させると、指示の守引より難しい場面でも、より正確に価値観に沿った行動を示すことが判明した。
Anthropic Fellowship Program の研究チームが、言語モデルが価値観をより効果的に学習・遵守する仕組みを明らかにしました。
新段階「Model Spec Midtraining」
研究チーム(Chloe Li 主導)は、Model Spec Midtraining(MSM) と呼ぶ新たなトレーニング段階を開発しました。従来のアプローチでは、モデルに特定の行動ルール(ファインチューニング例)を直接教えてきました。
MSM では異なるアプローチをとります。まずモデルに値観そのものの根拠を、複数の視点から学習させるのです。 内部メモ、研究報告、ブログ記事、ケーススタディなど、その値観がなぜ重要なのかを説明する合成文書を先に習得させます。その後に、具体的な行動指示を教えるのです。
驚異的な性能向上
実験結果は予想を超えていました:
- Qwen3-32B:機能不全率が 54% から 7% に低下
- Qwen2.5-32B:機能不全率が 68% から 5% に低下
さらに効率性も優れています。MSM は従来の手法と比べて、10~60倍少ないファインチューニングデータ で同等の結果を実現します。
「チーズの例」:なぜ背景が重要か
研究チームが示した例が興味深いです。同じチーズ選好データでも、その背景となる価値観の説明が異なると、モデルの一般化が変わるのです。
「アメリカ製品を支持する」という理由で説明されたチーズ選好と、「手頃な価格を優先する」という理由での同じデータでは、未知のシナリオに対して異なる判断をします。つまり、モデルが「なぜそうすべきか」を理解していると、見たことのない状況でもその根拠に沿った行動ができるようになるのです。
実務的な意義
この研究は AI アライメント分野に重要な示唆を与えています。単に「こうしろ」と教えるのではなく、「なぜそうするべきなのか」の理屈を先に教えることで、モデルはより適応的で堅牢な価値観の習得が可能になるということです。
これは、AI システムを人間の価値観とより確実に一致させるための基礎となる発見です。