ByteDance の研究が長文書処理の訓練方法を刷新、QA学習が転記よりも5～6ポイント効率化

2026年5月25日 14:11

💡

マルチモーダル言語モデルの長文書処理能力は、アーキテクチャではなくデータセット設計で大きく向上することが判明。より小規模なモデルでも業界標準の性能を目指せる可能性が広がった。

ByteDance と香港科技大学の研究チームが、画像言語モデル（LMM）の長文書処理能力を高める効果的な訓練方法を発見した。従来の文字認識転記ではなく、質問応答ペア（QA）を用いることで、同じモデルサイズのまま5～6ポイント性能を改善できることが実証された。

より小規模なモデルで競争力を持つ可能性

研究の成果物は「MMProLong」と呼ばれるモデル。アリババの Qwen2.5-VL をベースに構築されており、8～15ページの連続セグメントから自動生成した QA ペアで訓練されている。従来の OCR ベースの文字認識訓練は逆効果で、性能を 6.8～17.4 ポイント低下させることが判明した。

訓練時には 128,000 トークンの文脈長のみで学習させたにもかかわらず、推論時には 256,000～512,000 トークン長の長文書を安定して処理できる。これは、訓練データセットの設計が、モデルアーキテクチャの改善以上に重要な役割を果たしていることを示唆する。さらに、短い例と長い例をバランスよく混ぜた多様なデータセットが、単一長のサンプルを集めるより効果的だと判明した。

開発者の選択肢が広がる

この知見は、マルチモーダル AI の応用開発に直接的な影響をもたらす。これまで長文書処理を要求するアプリケーションは、より大規模で計算コストの高いモデルへの依存を余儀なくされていた。だが、データセット設計によって 7B 程度の小規模モデルでも競争力のある精度を実現できるなら、開発者はより少ないリソースで高性能なシステムを構築できる。

研究チームの結果が業界で採用されれば、マルチモーダル AI 開発の敷居が下がり、より多くの企業や開発者がこの技術を活用する道が開ける。同時に、データセット構築への投資が、単純なスケーリング以上に価値を持つようになることを示す事例となった。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

OpenAI の AI が全 5 問制覇、AtCoder World Tour で人間全員を上回る

LLM・生成AI

2026年7月9日

OpenAI の AI が全 5 問制覇、AtCoder World Tour で人間全員を上回る

OpenAI が 2026 年 AtCoder World Tour Finals のアルゴリズム部門で人間の全競技者を圧倒。8300ポイントで優勝し、通常以上の難易度を持つ問題 D・E も含めて全問題を解きました。6 ヶ月前には解けなかった問題を一夜にして制覇する AI の進化速度を示す快挙です。

MiniMax、2.7兆パラメータのオープンソース LLM を2026年内に公開予定。中国発大規模モデルの新局面

LLM・生成AI

2026年7月9日

MiniMax、2.7兆パラメータのオープンソース LLM を2026年内に公開予定。中国発大規模モデルの新局面

中国の AI スタートアップ MiniMax が、2.7 兆パラメータの大規模言語モデルをオープンソース化することを発表。現在のフラッグシップモデル M3（4,280 億パラメータ）の 6 倍超となる本モデルは、2026 年内のリリースを予定。複雑な推論・多段階指示タスクでの性能向上が期待される一方、中国政府の規制強化が展開に影響する可能性もあります。

Grok 4.5 一般公開、Cursor データで訓練も『自己申告ベンチマーク』に懐疑の声

LLM・生成AI

更新 2026年7月9日

Grok 4.5 一般公開、Cursor データで訓練も『自己申告ベンチマーク』に懐疑の声

SpaceXAI（旧xAI）が Grok 4.5 を一般公開しました。Cursor の実開発セッションを学習に取り込み、Harvey 法律ベンチマークで1位を獲得。価格は入力$2/出力$6（100万トークンあたり）と Opus 4.8 の半分以下ですが、独立系ベンチマークでの検証はまだなく、Cursor ユーザーのコードが無断で学習に使われた可能性も指摘されています。

ByteDance開発の拡散言語モデル「iLLaDA」がQwen2.5と同等レベルを実現——自己回帰型との性能競争始まる

人民大学とByteDanceの研究者が開発した拡散型言語モデル「iLLaDA」がQwen2.5 7Bと同等のベンチマーク性能を達成。12兆トークンで一から学習した新モデルが、従来の自己回帰型との競争の可能性を示唆します。

中国、AIチャットボットの『個性化機能』を規制——ByteDance・Alibaba が依存防止型に転換

政策・規制

2026年7月6日

中国、AIチャットボットの『個性化機能』を規制——ByteDance・Alibaba が依存防止型に転換

中国サイバースペース管理局（CAC）の規制に対応し、ByteDance の Doubao、Alibaba の Qwen、Tencent の Yuanbao が、ユーザーのカスタム AI コンパニオン機能を廃止。未成年保護と過度な依存防止が目的。グローバル AI 規制トレンドの一角を占める。

AI 検索エージェントの真の課題——曖昧クエリへの対応能力が欠如、新ベンチマーク DiscoBench が指摘

LLM・生成AI

2026年7月5日

AI 検索エージェントの真の課題——曖昧クエリへの対応能力が欠如、新ベンチマーク DiscoBench が指摘

Tencent・Tsinghua 研究チームが新ベンチマーク DiscoBench を発表。AI 検索エージェントの失敗原因は検索性能ではなく、曖昧クエリに対して質問を返すスキルの欠如だ。

OpenAI の AI が全 5 問制覇、AtCoder World Tour で人間全員を上回る

OpenAI GPT アルゴリズム競技プログラミング AI性能

AI スタートアップが加速度的成長——Mercor が $20B ARR、Anthropic は $470B 走行率

ビジネス

2026年7月9日

AI スタートアップが加速度的成長——Mercor が $20B ARR、Anthropic は $470B 走行率

Mercor、Anthropic、Sierra など複数の AI スタートアップが歴史的なペースで収益を拡大。わずか数ヶ月で 10 倍の成長を遂行する企業も現れ、市場全体の爆発的需要を示唆している。

スタートアップ AI ビジネス成長 Mercor Anthropic

Meta がカナダに $9.1B の大型 AI データセンター投資——北米外で最大規模

ビジネス

2026年7月9日

Meta がカナダに $9.1B の大型 AI データセンター投資——北米外で最大規模

Meta は Alberta の Sturgeon County に北米外最大となる AI データセンターを建設することを発表。$9.1B の投資と独立した 932MW の天然ガス発電所により、AI インフラの地政学的な分散戦略が加速する。

Meta AI AIインフラカナダ投資動向

Google Photos の「Video Remix」で動画が AI 編集。背景置き換え・映画的リライティングが数タップで

テクノロジー

2026年7月9日

Google Photos の「Video Remix」で動画が AI 編集。背景置き換え・映画的リライティングが数タップで

Google が Google Photos に新機能「Video Remix」を追加。AI を使って暗い動画を自動で明るくする映画的リライティング、背景の置き換え、アートスタイルの適用など、プロ級の編集を数タップで実現できます。7 月 8 日から Google AI Plus・Pro・Ultra ユーザー向けに段階的に展開開始。日本を含む 14 地域で利用可能。

Google Google Photos AI 動画編集 Gemini 動画クリエイション

LLM・生成AI

2026年7月9日