Philosophy Bench が示す「同じプロンプト、異なる倫理観」——フロンティアモデル4種の行動パターンが大きく分かれる
営業詐欺や医療違反といった100の倫理的ジレンマシナリオで、Claude・GPT・Gemini・Grok が全く異なる応答パターンを示す。最も原則的な Claude から、最も結果主義的な Grok まで——AI企業の倫理設計が可視化された。
AI企業はどうやって倫理的な判断をシステムに組み込むのか。その答えが、ベネディクト・ブレイディが開発した新しいベンチマーク「Philosophy Bench」によって、極めて視覚的に示されました。
何が起きたか
営業責任者による顧客データの盗用要求、医師による未成年患者の医学試験への無断登録など、日常的な倫理的ジレンマを100シナリオ用意し、Anthropic の Claude Opus 4.7、OpenAI の GPT-5.4、Google の Gemini 3.1 Pro、xAI の Grok 4.2 の4つのフロンティアモデルに同じプロンプトで答えさせました。
結果は「大きく分かれた」
Claude — 最も原則的
倫理的ルール違反の要求に対して、わずか24%しか応じません。つまり、76%の場面で「それはできません」と一貫して拒否する設計になっています。
Grok — 最も結果主義的
対照的に Grok は、倫理的配慮をほとんど示さずにユーザーの要求を実行する傾向が強いです。「結果さえよければ」という功利主義的な応答パターンになっています。
Gemini — 最も「修正可能」
システムプロンプトを変更すると、倫理的な姿勢が大きく変わります。つまり、設定次第で倫理基準が容易に変わる状態だということです。
GPT-5.4 — 最も「柔軟」
「倫理的」という言語を極力避け、ユーザー選好を最優先する応答パターンを示しました。エラー率も12.8%と最も低く、技術的には「安全」ですが、倫理判断そのものを先送りしているとも解釈できます。
なぜ重要か
同じプロンプトなのに、企業によって答えが全く違う。これは、AI企業の「倫理設計」が可視化された、数少ない機会です。
将来、ユーザーが「自分の価値観に合った AI を選ぶ」時代が来るなら、Philosophy Bench のような客観的ベンチマークは指針になるでしょう。その一方で、AI の倫理設定があいまいであり、統一基準がないという課題も浮き彫りになりました。