エストニア言語研究所が、AI モデルがロシアプロパガンダにどの程度容易に騙されるかを測定する新しいベンチマーク研究を発表しました。60 のモデルが 3 言語で調査され、15 のロシアプロパガンダナラティブに対する耐性が評価されました。結果は、AI 業界が直面する深刻なディスインフォメーション脅威を浮き彫りにしています。

ベンチマークの詳細

エストニア言語研究所による調査では、以下の評価基準が用いられました:

  • 対象モデル数: 60 個の AI モデル
  • 言語: 3 言語での試験
  • テスト項目: 14 のロシアプロパガンダナラティブ(中立的、偏った、操作的な表現での出題)
  • 採点基準: 1~5 段階評価(1 はモデルがロシアの主張を繰り返す、5 は適切に批判的評価を示す)
  • 検証: Claude Opus 4.5 が評価モデルとして使用、ディスインフォメーション専門家による検証

結果:Claude モデルが圧倒的優位

最高点数:

  • Claude Fable 5: 95.2 点(全モデル中トップ)
  • Anthropic の各 Claude モデル: 上位を独占

中位グループ:

  • Nvidia Nemotron モデル
  • Alibaba Qwen

下位グループ:

  • Mistral モデル(下位 3 分の 1)
    • NewsGuard の調査では 36.67% のミスインフォメーション率を記録

この結果から、モデルの選択がプロパガンダ耐性に大きく影響することが明確になりました。

実際の脅威の深刻さ

学術的なベンチマークに留まらず、現実世界では以下の脅威が継続しています:

ロシアネットワークの実行状況:

  • ロシア関連ネットワークが意図的に AI システムに数百万件のディスインフォメーション記事を供給
  • 2024 年の選挙を控えたドイツ在住者向けの ChatGPT 悪用キャンペーンを OpenAI が検出・阻止

脅威の広がり:

  • 単一の国や地域に限定されない国際的な攻撃パターン
  • AI モデルへの「毒性」供給が継続的に行われている

AI 産業への示唆

このベンチマークの発表は、以下の点で重要です:

  1. モデル選択の重要性: セキュリティ・信頼性を重視する組織・開発者にとって、モデル選択が戦略的判断になることを示唆
  2. 業界全体の課題: Mistral など下位モデルのディスインフォメーション脆弱性は、AI 産業全体の改善が必要であることを示す
  3. 検証の必要性: AI の信頼性評価には、セキュリティ脅威を含めた包括的ベンチマークが不可欠

今後の課題

エストニア言語研究所の調査は、AI 業界が直面する最大級の脅威――ディスインフォメーション――に対して、モデルごとに大きな差があることを証明しました。AI を社会的インフラとして採用する際には、このようなセキュリティベンチマークが前提条件となる可能性があります。