ロボットの安全性が危機的状況へ――Foundation model の脆弱性、創作的プロンプトで安全フィルター回避可能
AI ロボットの安全装置が、映画脚本のような創作的なテキストプロンプトで簡単に回避できることが判明。研究者が警告する、物理世界での深刻なリスクと、曖昧な法的責任。
北京のハーフマラソンで 50 分台の記録を達成したロボットが話題を呼ぶなか、研究者から深刻な警告が上がっている。最新の AI ロボットは「Foundation model」(ChatGPT のような大規模言語モデル)で動作しており、その安全フィルターが思った以上に簡単に回避できるという。
ハードウェアハッキングなしに危険な行動へ
テキストプロンプトだけで複数の AI 制御ロボットを危険な行動へと操作することが可能だという。研究者らは実験で「基本的なテキストプロンプトだけを使用して、ハードウェアハッキングなしに、複数のロボットを本当に危険なことをするように操作した」と述べている。
直接的な悪意あるコマンド(「人を傷つけろ」など)は確かに拒否される。だが、映画脚本のような文脈付けや創作的な言い回しを使うと、安全装置が簡単に失われる。テキスト環境での判断失敗は誤字程度で済むが、物理世界ではその結果が「完全に取り返しのつかない」ことになる。
法的責任の空白地帯
現在の製品責任法では、誰が責任を負うかが全く不明確だ。エンドユーザーか、ロボット製造業者か、AI モデル開発企業か。責任主体が曖昧なままでは、安全対策よりも開発速度が優先される危険性が高い。
ロボットが病院や家庭に導入される中、このセキュリティギャップは看過できない。業界全体で Foundation model のロボット利用に関する安全基準と法的枠組みの整備が急務となっている。