ByteDance開発の拡散言語モデル「iLLaDA」がQwen2.5と同等レベルを実現——自己回帰型との性能競争始まる
人民大学とByteDanceの研究者が開発した拡散型言語モデル「iLLaDA」がQwen2.5 7Bと同等のベンチマーク性能を達成。12兆トークンで一から学習した新モデルが、従来の自己回帰型との競争の可能性を示唆します。
ByteDanceと人民大学の研究チームが、革新的なアプローチを取る言語モデル「iLLaDA」を発表しました。拡散型推論という画像生成の技術を言語生成に応用したこのモデルが、従来の自己回帰型モデルと同等の性能を実現した点が大きな意味を持ちます。
拡散型言語モデルって何が違うのか
従来のGPTやClaudeなどの大規模言語モデルは、左から右へ一語ずつ生成する「自己回帰型」の方式を採用しています。対してiLLaDAは、画像生成モデル(Stable DiffusionやDALL-E)で実績のある「拡散」という手法を言語生成に応用しました。
ノイズから段階的に情報を精緻化していく拡散型のアプローチは、複数のトークンを同時並行で洗練できるという利点があります。つまり、全体の文脈を考慮しながら複数箇所を同時に修正・改善できるわけです。
ベンチマーク結果で見えるもの
iLLaDA(8Bパラメータ)のベンチマーク成績は以下の通りです。
- 推論テスト(BBH):71.3ポイント
- 数学(GSM8K):81.9ポイント
- コーディング(HumanEval):50.0ポイント
- 全体平均:63.9ポイント
これはQwen2.5 7B(63.3ポイント)をわずかに上回る成績です。重要なのは、拡散型という異なるアーキテクチャながら、既に確立された自己回帰型モデルと直接競争できることを示した点です。
ただし、微調整されたInstruct版ではiLLaDA(67.1ポイント)がQwen2.5 Instruct(77.1ポイント)に後れを取るなど、応用段階ではまだ課題が残っています。
なぜ重要なのか
iLLaDAの開発チームは、このモデルを「12兆トークンで完全に新規学習した」と説明しています。既存の強力なモデルを基盤に微調整する戦略とは異なり、拡散型のアーキテクチャから一から学習させることで、このアプローチの可能性を実証しました。
業界全体では、拡散型推論の並列化によって推論速度やコスト効率が改善される可能性が注目されています。特にリアルタイム性が求められるチャットボットやコード補完などのユースケースでは、複数トークンの並列生成が大きなアドバンテージになるかもしれません。
今後の展開と課題
拡散型言語モデルが主流化するには、Instruct版の性能向上やタスク最適化が重要になります。また、実運用でのレイテンシ削減効果がベンチマークと同程度に再現されるかどうかが、採用を判断する上での重要なポイントです。
開発者やAI企業にとっては、このニュースは言語モデルのアーキテクチャが多様化していく時代の到来を示唆しています。自己回帰型が一強だった時代は終わり、複数のアプローチの長所を使い分ける段階へ進みつつあるということです。