新 AI モデル「LPM 1.0」が 1 枚の写真から 45 分間のリップシンク動画をリアルタイム生成——研究段階、安全性懸念も

2026年4月14日 12:33

Photo by TRG on Unsplash

💡

1枚の写真を入力するだけで、リアルタイムに45分間の音声同期動画を生成するAIモデル「LPM 1.0」が開発された。表情や頷きなどの自然な動きも含まれるが、現在は研究段階で公開予定はなく、深刻な安全懸念も指摘。

AI 研究チームが新しいビデオ生成モデル「LPM 1.0」を開発した。1枚の顔写真を入力することで、リアルタイムに 45 分間の音声同期動画を生成できるシステムだ。研究成果は技術的な成功を示す一方で、深刻な悪用リスクも浮き彫りにしている。

LPM 1.0 の技術的特性

LPM 1.0 は、単一の参照画像から、スムーズに音声と同期した映像を生成する。生成される動画には以下の特徴がある。

生成される動きの種類:

音声入力に完全に同期した唇の動き
迷いや視線移動といった微妙な表情変化
自然な感情の遷移
聴き手としての反応的な行動（頷き、視線変化）
ポーズ中の自然なアイドル動作

重要な技術的工夫として、複数の角度と表情から参照画像を入力することで、歯のディテール、しわ、横顔など、特定の細部を直接描画することが可能な設計になっている。これにより、合成的な顔生成に頼らず、より写実的な結果が得られる。

汎用性の高い実装

LPM 1.0 の大きな特徴の一つが、その汎用性だ。写真写実的な顔だけでなく、アニメキャラクターや 3D ゲームキャラクターに対しても追加学習なしで応用できる。また、ChatGPT や Doubao といった音声 AI システムとの直接統合も可能で、テキスト入力から完全なビデオキャラクター生成までのワークフローが実現できるという。

処理方式もバッチレンダリングではなく、ストリーミング生成方式を採用しており、リアルタイム性を確保している。

研究段階における制限と安全上の懸念

開発チームは、LPM 1.0 が現在のところ純粋な研究段階であり、公開予定がないことを強調している。生成される動画には視覚的な人工物が含まれ、定量分析では実写映像との間に品質格差があることが示されているという。

より重要な点として、研究チームは深刻な安全上の懸念を明示している。この技術は詐欺、操作、なりすましといった悪用の可能性が高く、「適切なセーフガードと責任あるユース・フレームワークが確実に整備されるまで」の公開は考えていないとのことだ。デモンストレーションに使用されたすべての顔が AI 生成であることも注記されている。