AIの“脳”をのぞく新ツールが登場しました。Gemma Scope 2は、270M〜27BパラメータのGemma 3シリーズ全サイズを対象に、モデル内部の意思決定を可視化するツール群を公開しています。まるでMRIで脳の動きを追うように、モデルの“考え方”を見られるようにする試みです。

透明性の新時代が始まる理由

なぜ注目されるのでしょうか。第一に、Scope 2は公開デモを含めた形で提供されます。実際に手を動かして試せることは、結果の検証や再現性の確保に直結します。研究者や監査担当者がツールを共有し、互いの洞察を突き合わせられる点が大きな価値です。

270M〜27Bへの拡張が意味すること

これまでの解析は非常に大きなモデルに偏りがちでしたが、Scope 2は小型から中型までをカバーします。モデルのサイズごとに挙動を比較できるため、どの規模でどんな問題が出やすいかが見えてきます。デバッグや安全介入の設計が現実的になります。

技術の中身をざっくり解説

Scope 2はSparse Autoencoders(SAE)とトランスコーダを組み合わせて内部表現を“読み解く”仕組みを使います。SAEは入力の重要な要素だけを抽出する自動符号化器で、ノイズをそぎ落とすイメージです。トランスコーダはその抽出結果を別の表現へ変換し、内部思考と出力の関係を可視化します。これにより、ある“思考”がどのように応答に結びつくかが追いやすくなります。

規模が生む現実的な壁と利点

開発には約110ペタバイトのデータが関わり、関連する総パラメータは1兆を超えると報告されています。こうした巨大な規模は、再現性の確保やツール適用の難易度を上げます。一方で、オープンなツールとして公開することは、研究コミュニティ全体で検証と改善を進める推進力になります。

安全研究への直接的な影響

Scope 2は、emergent model behaviors(予期せぬ挙動)のデバッグや、AIエージェントの監査に役立つ可能性があります。ジャイルブ(jailbreaking)や幻覚(hallucination)、意図しない説得的な振る舞いへの対策を企画・検証する際の実務的ツールになり得ます。Neuronpediaとの協力によるデモ利用も可能で、実務者が手を動かして評価できます。

まとめ:現実的な落としどころを探る

Gemma Scope 2は、単なるギミックではなく、モデル内部の可視化を現実の研究と運用に結びつける試みです。規模の大きさは課題を生みますが、公開と検証を通じて透明性と実用性が育っていく期待があります。これからは、見える化された情報をどう安全介入に結びつけるかが鍵になるでしょう。