ByteDance と香港科技大学の研究チームが、画像言語モデル(LMM)の長文書処理能力を高める効果的な訓練方法を発見した。従来の文字認識転記ではなく、質問応答ペア(QA)を用いることで、同じモデルサイズのまま5~6ポイント性能を改善できることが実証された。

より小規模なモデルで競争力を持つ可能性

研究の成果物は「MMProLong」と呼ばれるモデル。アリババの Qwen2.5-VL をベースに構築されており、8~15ページの連続セグメントから自動生成した QA ペアで訓練されている。従来の OCR ベースの文字認識訓練は逆効果で、性能を 6.8~17.4 ポイント低下させることが判明した。

訓練時には 128,000 トークンの文脈長のみで学習させたにもかかわらず、推論時には 256,000~512,000 トークン長の長文書を安定して処理できる。これは、訓練データセットの設計が、モデルアーキテクチャの改善以上に重要な役割を果たしていることを示唆する。さらに、短い例と長い例をバランスよく混ぜた多様なデータセットが、単一長のサンプルを集めるより効果的だと判明した。

開発者の選択肢が広がる

この知見は、マルチモーダル AI の応用開発に直接的な影響をもたらす。これまで長文書処理を要求するアプリケーションは、より大規模で計算コストの高いモデルへの依存を余儀なくされていた。だが、データセット設計によって 7B 程度の小規模モデルでも競争力のある精度を実現できるなら、開発者はより少ないリソースで高性能なシステムを構築できる。

研究チームの結果が業界で採用されれば、マルチモーダル AI 開発の敷居が下がり、より多くの企業や開発者がこの技術を活用する道が開ける。同時に、データセット構築への投資が、単純なスケーリング以上に価値を持つようになることを示す事例となった。