「In the Weights」で AI モデルが覚えている人物を検索——元 OpenAI 従業員が開発
AI モデルの訓練データを分析する新ツール「In the Weights」がオンライン公開。元 OpenAI 従業員 2 名が開発し、特定人物が AI の訓練データにどの程度「保存されている」かをスコア表示。誰でも試用可能。
元 OpenAI 従業員の Joey Flynn と Thomas Dimson が開発した新しい Web ツール「In the Weights」が公開された。このツールは大規模言語モデル(LLM)の訓練データを分析し、特定の人物が AI モデルのパラメータにどの程度「保存されている」かを可視化する。誰でも無料でアクセスでき、自分や著名人がどれほど AI に「認識されている」かを調べることができる。
訓練データの可視化ツール
「In the Weights」は複数の AI モデルに対して人物名を入力し、その人物が訓練データのどの程度の深さに埋め込まれているかを「強度スコア」として表示する。モデルが訓練時に個人を重要と判断した場合、Web 検索などの外部ツール無しに記憶していることがあり、その度合いをスコアで示すのが狙いだ。
強度スコアは 0 から 996 までの範囲で表示される。最高スコアは Mozart、Shakespeare、Taylor Swift など、歴史的に最も重要な人物らが獲得している。一般的な人物でも数百のスコアを持つことが多く、個人差が明確に表れる。著者の同僚は 262、著者自身は 175 というスコアを獲得したと報告されている。
複数モデルでの検索
このツールは複数の AI モデルで同時検索をサポートしている。Meta の Llama(10 億パラメータ版など)のような比較的小規模なモデルに登場することは、その人物がインターネット上で高い関連性を持つことの指標となる。逆に大規模モデルのみに登場する人物は、訓練データの規模が大きいほど認識される傾向にある。
ただし、このツール自体にはいくつかの制限がある。モデルが伝記的詳細を生成する際に幻覚化する可能性もあり、スコア自体も完全に正確とは限らない。また、一般的な名前(田中、山田など)はスコアが低下しやすい傾向も見られる。
AI 透明性と今後の議論
「In the Weights」の公開は、AI モデルの訓練データ構成と個人のプライバシーに関する議論を活発化させている。訓練データに自分の情報がどの程度含まれているかを知ることは、個人が自分の「デジタル足跡」を理解する上で重要だ。同時に、企業秘密性との緊張関係も生じる。OpenAI や Google などの大手企業は訓練データの詳細を非公開としており、こうしたツールはそのギャップを埋める試みの一つとなっている。
本ツールはユーザーの好奇心を満たすだけでなく、AI の透明性と説明責任に関する社会的な関心を高める機能を果たす可能性があり、今後の AI 規制論議にも影響を与えると予想される。