Baiduの「Unlimited OCR」が複数ページの一括処理を実現——Reference Sliding Window Attentionの威力
従来のOCRは10ページ程度が限界だったが、Baiduが発表した新モデルは数十ページを一度に処理。ベンチマークで1位、12.7%高速化も実現した。
「Unlimited」OCR——複数ページの壁を突破
従来の光学文字認識(OCR)モデルは、1回の処理で約10ページが限界だった。メモリ効率の問題と、テキスト生成に伴う KV キャッシュの膨張が原因だ。Baiduが発表した新モデルは、この制約を根本的に解決した。数十ページを一度に処理しながら、メモリ使用量は一定に保つというアプローチである。
ベンチマーク「OmniDocBench v1.6」で 93.92%の精度を達成し、エンドツーエンドシステムの1位に輝いた。従来のシステムでは、ページ数が増えると精度が低下するのが常だったが、この新モデルは40ページを超えても精度を維持できる。
Reference Sliding Window Attention(R-SWA)の仕組み
革新の中心にあるのは「Reference Sliding Window Attention」(R-SWA)という注意メカニズムだ。従来の Sliding Window Attention では、入力された文字列全体をメモリに保持する必要があり、テキスト長に比例してメモリが増える。
R-SWA の工夫は以下の通り:
- 各トークンがすべてのビジュアル参照トークンへアクセス可能(画像の視覚情報を常に参照)
- 一方、生成済みテキストは最後の128トークンのみ参照(それ以前の出力は参照しない)
- ビジュアルトークンは全処理期間を通して変更されない(画像認識精度の劣化防止)
結果として、固定長 32,000 トークンのコンテキストウィンドウで動作しながら、実運用では 128,000 トークンへの拡張も計画中である。この設計により、ページ数に関わらず一定のメモリで複数ページを処理できる。
ベンチマーク結果と実用性
精度面:
- OmniDocBench v1.5:93% 全体精度(DeepSeek ベースラインより6ポイント上)
- v1.6:93.92% 精度(エンドツーエンドシステムで業界1位)
- 40ページを超えても誤り率は 0.11% 以下に維持
パフォーマンス:
- トークン処理速度:5,580 トークン/秒(DeepSeek の 4,951 比で 12.7% 高速化)
処理容量:
- 従来システム:約10ページが限界
- Unlimited OCR:数十ページを一度の処理で対応
業界への含意
OCR 技術は金融(本人確認・マネーロンダリング対策)、保険(クレーム処理)、医療(申請書管理)、製造(技術文書抽出)など、実務的に必須のツールだ。しかし大量の複数ページ文書を処理する際、従来は複数回に分割して実行する必要があり、運用コストが高かった。
Baidu の新モデルは、この一度の処理という制約を取り除くことで、エンタープライズシステムの統合効率を大きく向上させる可能性を持つ。特に書類の多い金融・保険・医療分野での自動化レベルが一段上がる。
加えて、トークン処理速度 12.7% の高速化は、本番環境でのレイテンシ削減を意味し、リアルタイム処理が求められるワークフローでも応答性が改善される。
今後の課題と検証ポイント
新技術には常に実運用との乖離がある。以下の検証が必須だ:
- 汚損・歪み・低解像度の実務的な書類での性能確認
- 異言語(中国語以外)での精度維持
- 既存システムへの統合コストと ROI 計算
- セキュリティ・コンプライアンス要件への対応
これらを確認した上で、段階的な PoC(概念実証)から導入を進めるのが現実的だ。