AI 研究チームが新しいビデオ生成モデル「LPM 1.0」を開発した。1枚の顔写真を入力することで、リアルタイムに 45 分間の音声同期動画を生成できるシステムだ。研究成果は技術的な成功を示す一方で、深刻な悪用リスクも浮き彫りにしている。

LPM 1.0 の技術的特性

LPM 1.0 は、単一の参照画像から、スムーズに音声と同期した映像を生成する。生成される動画には以下の特徴がある。

生成される動きの種類:

  • 音声入力に完全に同期した唇の動き
  • 迷いや視線移動といった微妙な表情変化
  • 自然な感情の遷移
  • 聴き手としての反応的な行動(頷き、視線変化)
  • ポーズ中の自然なアイドル動作

重要な技術的工夫として、複数の角度と表情から参照画像を入力することで、歯のディテール、しわ、横顔など、特定の細部を直接描画することが可能な設計になっている。これにより、合成的な顔生成に頼らず、より写実的な結果が得られる。

汎用性の高い実装

LPM 1.0 の大きな特徴の一つが、その汎用性だ。写真写実的な顔だけでなく、アニメキャラクターや 3D ゲームキャラクターに対しても追加学習なしで応用できる。また、ChatGPT や Doubao といった音声 AI システムとの直接統合も可能で、テキスト入力から完全なビデオキャラクター生成までのワークフローが実現できるという。

処理方式もバッチレンダリングではなく、ストリーミング生成方式を採用しており、リアルタイム性を確保している。

研究段階における制限と安全上の懸念

開発チームは、LPM 1.0 が現在のところ純粋な研究段階であり、公開予定がないことを強調している。生成される動画には視覚的な人工物が含まれ、定量分析では実写映像との間に品質格差があることが示されているという。

より重要な点として、研究チームは深刻な安全上の懸念を明示している。この技術は詐欺、操作、なりすましといった悪用の可能性が高く、「適切なセーフガードと責任あるユース・フレームワークが確実に整備されるまで」の公開は考えていないとのことだ。デモンストレーションに使用されたすべての顔が AI 生成であることも注記されている。

社会的影響と今後の課題

LPM 1.0 のような技術の登場は、ディープフェイク生成の確実性を大幅に向上させるものだ。声との完全な同期、自然な表情、長時間の安定性といった要素が揃えば、不正な動画の作成が従来よりはるかに容易になる可能性がある。

一方、正当な用途も多く想定される。映像制作、教育、エンターテインメント、アクセシビリティ支援など、この技術の応用範囲は広い。課題となるのは、この高度な技術をいかに制御し、悪用を防ぎながら利益を最大化するかである。

研究チームの慎重な姿勢は、AI 開発における倫理的配慮の一例を示しているが、同時にこうした強力な技術の規制枠組みの構築が急務であることを示唆している。