Anthropic、言語モデルが価値観を学ぶ仕組みを解明——事前学習で遵守率が大幅向上

2026年5月7日 13:10

💡

Anthropic Fellowship Program の研究により、モデルに値説明文を事前に学習させると、指示の守引より難しい場面でも、より正確に価値観に沿った行動を示すことが判明した。

Anthropic Fellowship Program の研究チームが、言語モデルが価値観をより効果的に学習・遵守する仕組みを明らかにしました。

新段階「Model Spec Midtraining」

研究チーム（Chloe Li 主導）は、Model Spec Midtraining（MSM） と呼ぶ新たなトレーニング段階を開発しました。従来のアプローチでは、モデルに特定の行動ルール（ファインチューニング例）を直接教えてきました。

MSM では異なるアプローチをとります。まずモデルに値観そのものの根拠を、複数の視点から学習させるのです。 内部メモ、研究報告、ブログ記事、ケーススタディなど、その値観がなぜ重要なのかを説明する合成文書を先に習得させます。その後に、具体的な行動指示を教えるのです。

驚異的な性能向上

実験結果は予想を超えていました：

Qwen3-32B：機能不全率が 54% から 7% に低下
Qwen2.5-32B：機能不全率が 68% から 5% に低下

さらに効率性も優れています。MSM は従来の手法と比べて、10～60倍少ないファインチューニングデータ で同等の結果を実現します。

「チーズの例」：なぜ背景が重要か

研究チームが示した例が興味深いです。同じチーズ選好データでも、その背景となる価値観の説明が異なると、モデルの一般化が変わるのです。

「アメリカ製品を支持する」という理由で説明されたチーズ選好と、「手頃な価格を優先する」という理由での同じデータでは、未知のシナリオに対して異なる判断をします。つまり、モデルが「なぜそうすべきか」を理解していると、見たことのない状況でもその根拠に沿った行動ができるようになるのです。

実務的な意義

この研究は AI アライメント分野に重要な示唆を与えています。単に「こうしろ」と教えるのではなく、「なぜそうするべきなのか」の理屈を先に教えることで、モデルはより適応的で堅牢な価値観の習得が可能になるということです。

これは、AI システムを人間の価値観とより確実に一致させるための基礎となる発見です。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

Anthropic、Claude Managed Agents に「Dreaming」機能追加——エージェントが背景で思考

LLM・生成AI

2026年5月7日

Anthropic、Claude Managed Agents に「Dreaming」機能追加——エージェントが背景で思考

Anthropic は Claude Managed Agents を更新し、エージェントが背景で記憶を整理・分析する「Dreaming」機能を追加。同時に Pro・Max ユーザーのレート制限を倍増させました。

Anthropic が SpaceX Colossus-1 から 22 万個の GPU を確保——Claude スケーリング加速へ

LLM・生成AI

2026年5月6日

Anthropic が SpaceX Colossus-1 から 22 万個の GPU を確保——Claude スケーリング加速へ

Anthropic が SpaceX のデータセンター Colossus-1 から 22 万個以上の NVIDIA GPU と 300MW 以上の電力を確保。Claude Code のレート制限を倍増し、Opus API の上限も大幅引き上げ。インフラ競争の最前線。

Anthropic 共同創設者が警告——2028年末までに60%の確率で、AIが自動的に後継者を訓練する

LLM・生成AI

2026年5月6日

Anthropic 共同創設者が警告——2028年末までに60%の確率で、AIが自動的に後継者を訓練する

Jack Clark が公開データから分析。AI R&D の完全自動化が起こるリスクを数値化。SWE-Bench の成功率が2%から93.9%へ、CPU最適化タスクで2.9倍から52倍へと急速に進化。複利エラーの問題と、監督者を上回る知能獲得時のアライメント崩壊の危険を指摘

Anthropic、Claude Managed Agents に「Dreaming」機能追加——エージェントが背景で思考

LLM・生成AI

2026年5月6日

Anthropic が SpaceX Colossus-1 から 22 万個の GPU を確保——Claude スケーリング加速へ

LLM・生成AI

2026年5月6日

Anthropic 共同創設者が警告——2028年末までに60%の確率で、AIが自動的に後継者を訓練する

米国と中国、AI に関する正式な協議を検討——首脳会談での議題へ

米中両国が AI リスク管理について定期的な会合を開く正式協議を検討しており、5月の首脳会談で議題となる見通し。2023年の前回協議から実質的な進展に向けた新たな動きです。

米国中国 AI政策外交 AI安全

SpaceX、テキサスで最大$119B投じる次世代半導体工場『Terafab』——AIサーバー・衛星・自動運転車向けチップを一貫製造

テクノロジー

2026年5月7日

SpaceX、テキサスで最大$119B投じる次世代半導体工場『Terafab』——AIサーバー・衛星・自動運転車向けチップを一貫製造

エロン・マスク率いるSpaceXが、テキサス州グライムス郡での最大$119B規模の垂直統合型半導体製造施設の構想を提案。初期段階では$55Bを投資し、年1テラワットの電力供給能力を備えたチップ製造施設を目指す。

SpaceX 半導体 Elon Musk AI テキサス

Apple、Siri AI機能遅延訴訟で$250Mの和解金を支払い——iPhone 15・16ユーザーが対象

ビジネス

2026年5月7日

Apple、Siri AI機能遅延訴訟で$250Mの和解金を支払い——iPhone 15・16ユーザーが対象

iPhone AI機能の過度なマーケティングで訴えられたAppleが約$250M支払う和解に合意。対象ユーザーは購入デバイス1台につき最大$95の補償を受け取る

Apple Apple Intelligence Siri 訴訟 AI機能

Elon Musk vs. OpenAI 訴訟で新証言——2017年の支配権要求と決裂の真相

ビジネス

2026年5月7日

Elon Musk vs. OpenAI 訴訟で新証言——2017年の支配権要求と決裂の真相

OpenAIの創業者Greg Brockman とShivon Zilis の証言から明らかになった Musk の経営支配要求、テスラでの AI ラボ立ち上げ計画、そして決裂に至る経緯

Elon Musk OpenAI 訴訟 Sam Altman AI産業

Google DeepMind、EVE Online と提携して AI モデルテストを実施——複雑な宇宙戦闘環境で学習

テクノロジー

更新 2026年5月7日

Google DeepMind、EVE Online と提携して AI モデルテストを実施——複雑な宇宙戦闘環境で学習

Google DeepMind は、オンラインスペースゲーム EVE Online と提携し、AI モデルの複雑な環境下での学習・テストを開始。一方、開発元の CCP Games は $120M を投じて独立し、Fenris Creations へ事業をリブランドしました。

Google DeepMind AI テスト EVE Online AI 学習

LLM・生成AI

2026年5月7日

Anthropic、Claude Managed Agents に「Dreaming」機能追加——エージェントが背景で思考

Anthropic Claude AI エージェント Managed Agents

すべての記事を見る

Anthropic、言語モデルが価値観を学ぶ仕組みを解明——事前学習で遵守率が大幅向上

新段階「Model Spec Midtraining」

驚異的な性能向上

「チーズの例」：なぜ背景が重要か

実務的な意義

記事をシェア

タグ

参考ソース

SpaceX、テキサスで最大$119B投じる次世代半導体工場『Terafab』——AIサーバー・衛星・自動運転車向けチップを一貫製造

米国と中国、AI に関する正式な協議を検討——首脳会談での議題へ

LLM・生成AIの記事

関連タグの記事

最新記事