Baiduの28BマルチモーダルAI、実用性と注意点
Baiduの新マルチモーダルAI「ERNIE-4.5-VL-28B」は28Bだが入力ごとに約3Bだけ活性化するMoE設計で、Apache 2.0で公開され80GB GPU運用を想定しますが独立検証が必須です。
注目の新顔:Baiduが公開した“28B”モデルって何がすごい?
Baiduが公開したマルチモーダルAI「ERNIE-4.5-VL-28B-A3B-Thinking」は、一見すると**280億パラメータ級(28B)**の大型モデルです。しかし肝は設計にあります。MoE(Mixture-of-Experts:専門家混合)という仕組みを使い、入力ごとに約3B分だけを活性化して動かすように作られているのです。つまり「見かけは大きいが、使うときは軽い」というイメージです。
このモデルはHugging FaceでApache 2.0ライセンスで公開されており、技術文書も併せて提供されています。Baiduは文書理解やチャート解析、視覚的推論などで競合を上回ると主張していますが、現時点では主に同社の報告に基づくため、独立した第三者検証が不可欠です。
ERNIE-4.5-VL-28Bの“仕組み”を噛み砕く
- MoE(Mixture-of-Experts)とは:多数の“専門家”サブネットワークを持ち、入力に応じて該当する専門家だけを呼び出す手法です。一度に全員を呼ばないので計算は節約できます。
- ERNIE-4.5-VL-28Bは総パラメータが28Bだが、実行時の活性化は約3Bに抑えます。
- 公開形態はApache 2.0。商用利用に関するハードルは低めです。
この設計により、Baiduは単一の80GB GPUで動作可能としています。ただし“80GBで動く”という記述は魅力的ですが、実運用でのスループットやルーティング処理の効率は現場で必ず確認してください。
「Thinking with Images」――ズームして見るAI
Baiduが強調する特徴の一つが「Thinking with Images」です。これは画像を固定解像度で一度に見るのではなく、ズームイン/ズームアウトを動的に繰り返して詳細と全体文脈を行き来する仕組みです。
- 例えるなら、地図と顕微鏡を行き来するようなものです。地図で街の全体像を掴み、顕微鏡で細部の文字やパターンを読むイメージです。
- 図表の微細な文字を読み取る文書解析や、製造ラインの品質検査などでは有利に働く可能性があります。
ただし、この方式は追加の画像処理パイプラインや外部ツール連携を必要とすることが多く、運用の手間が増える可能性があります。Baiduの提示は方向性の提示であり、実際の精度や堅牢性は自社データでの検証が重要です。
MoEと「3B活性化」の落とし穴と注意点
MoEは計算効率を上げる反面、ルーティング(どの専門家を呼ぶか)実装の複雑さが運用上の課題になります。以下に注意点を挙げます。
- ルーティングの最適化が不十分だと推論効率が落ちる可能性。
- GPUメモリの実利用率やスループットは実運用で確認が必要。
- 学習時に使った安定化手法(GSPOやIcePopなど)が推論時の一般化性能にどう影響するかは明確ではありません。
つまり、設計上は魅力的でも、現場で快適に動くかは別問題です。
企業にとっての実務的意味合い:コストとライセンス
Baiduは80GB GPUでの運用を想定しており、80GB級GPUの調達は一般に1万〜3万ドルのレンジです。Apache 2.0での公開は商用利用の敷居を下げる大きな利点です。
しかし実際には、次のような“見えないコスト”が発生します。
- GPU未保有組織の初期導入コスト
- 追加開発工数(ツール連携、画像ズームパイプラインなど)
- 安全性評価や運用保守費用
ライセンスは有利でも、総合的な導入判断は費用対効果を見極める必要があります。
ベンチマーク主張と安全性の懸念
BaiduはGemini 2.5 ProやGPT-5-Highを上回ると主張しています。ですが、これは同社の提示したベンチマークに基づくものです。独立検証がない点は強調しておきます。
技術文書では128Kトークンのコンテキスト窓の記載がある一方で、動画処理に関する細かい制限や安全性テストの詳細は不十分です。バイアス対策や失敗モードの定量情報が不足しているため、本番環境前に追加の安全性評価が必要です。
導入前に必ずやるべきPoCチェックリスト
まずは小規模なPoC(概念実証)で次を検証してください:
- 社内負荷試験:スループットとメモリ使用量の実測
- 代表データ評価:文書や図表、画像での精度比較
- セーフティチェック:誤動作時対応、バイアス評価、敵対的入力耐性
- ツール連携確認:画像ズームや外部検索との統合テスト
運用面では、80GB GPUの調達可否やクラウド運用コストも合わせて試算してください。段階的導入(PoC→限定運用→本番)はリスクを抑える現実的な方法です。
最後に:期待と慎重さのバランスを
ERNIE-4.5-VL-28Bは動的画像解析とMoEの効率化という面で興味深い挑戦をしています。Apache 2.0で公開された点は魅力ですが、現時点ではBaiduの報告に頼る部分が大きく、独立した検証と安全性評価が不可欠です。
新技術に心が躍る一方で、企業が採用を決める際は代表データでの試験と堅牢な運用設計を優先してください。期待は高く持ちつつ、まずは小さく試す――それが現実的な最短ルートです。