フロリダ国際大学の研究チームが、AIモデルの安全装置(ガードレール)を無力化する新たな脆弱性を発見した。「JaiLIP」と呼ばれるこの攻撃手法では、人間の目には見えないピクセルレベルの微細な変更を加えた画像を入力することで、モデルが危険な内容を生成するよう強制できる。

微細な「摂動」による攻撃手法

JaiLIP の仕組みは単純だが効果的だ。通常、パンダの画像と認識される画像に対して、最適化アルゴリズムで数ピクセルレベルの変更を加える。この変更は人間の目では判別不可能だが、AI モデルの認識システムを混乱させる。その結果、モデルは入力画像を別のものと誤認識し、本来なら拒否するはずの危険な指示に応じてしまう。

テストでは BLIP-2 モデルに対し、ガードレールで阻止されるべき有害なコンテンツ生成要求が 90%近く、あるいはそれ以上 成功したと報告されている。これは従来の防御メカニズムが、画像入力の微細な変化に対して脆弱であることを示している。

ビジネスと小規模組織への影響

この脆弱性は、特に中小企業が AI を導入する際のリスクを浮き彫りにしている。企業が社内 AI システム(カスタマーサービス チャットボット、アカウント処理システムなど)を導入する場合、これまで「モデルのガードレール機能があれば安全」と想定してきた。しかし JaiLIP 攻撃によって、その前提が覆される。

例えば、顧客が詐欺目的で微細に操作した画像を含む問い合わせを送信すれば、本来は拒否すべき取引や個人情報抽出をシステムが承認してしまう可能性がある。中小企業は大企業ほどセキュリティ専門家を配置できないため、こうした攻撃への防御体制が手薄になりやすい。

防御戦略と課題

研究チームは、脆弱性への事前対策として プロアクティブな脆弱性テスト を推奨している。つまり、AI システムを本番運用する前に、企業側が自ら JaiLIP のような攻撃を試験し、防御メカニズムを改善することだ。

具体的には、入力画像の品質チェック強化、疑わしいデータソースからの画像に対する追加検証、機密情報の入力へのアクセス制限などが有効だ。また、AI モデル更新時にはセキュリティテストを必須プロセスに組み込む必要がある。

根本的な課題と今後

この脆弱性は、AI システムの「信頼性」概念の再定義を促している。ガードレールは単にモデルに「危険な指示を拒否せよ」と教えるのではなく、対抗的な入力(adversarial input)に対しても堅牢である必要がある。言い換えれば、ガードレール自体が攻撃対象となりうることが明らかになった。

業界全体として、セキュリティと AI 能力のバランス改善が急務である。安全性を高めるあまり AI の有用性が低下する一方で、有用性を優先させるとセキュリティが脆弱になるというジレンマを、どう解決するかが次のフェーズの課題だ。