GLM-4.6V公開、106Bと9Bの実力
Zhipu AIのGLM-4.6Vは106Bと9Bの二サイズを揃えたオープンソースの視覚言語モデルで、128,000トークン対応やネイティブなツール呼び出し、MITライセンス公開により企業導入の選択肢を広げます。
Zhipu AIの新VLM、GLM-4.6Vが来た
Zhipu AIがオープンソースの視覚言語モデル(VLM)「GLM-4.6V」シリーズを公開しました。視覚言語モデルとは、画像や動画などの視覚情報とテキストを同時に扱うAIです。今回の目玉は106Bと9Bという二つのサイズと、最大128,000トークンという非常に長い文脈を扱える点です。トークンはテキストを細かく分けた単位で、長い文書やログを丸ごと処理する際に重要になります。
GLM-4.6Vは20以上の公開ベンチマークで最先端に近い成績を示しており、特に長文処理や動画要約、複雑なマルチモーダル推論に強みを持つとされています。企業の実務で「大きな図書館を一度に参照するような作業」が必要な場面で、その力が発揮されるでしょう。
ネイティブなツール呼び出しで現場の手間を減らす
GLM-4.6Vの特徴の一つが、ツール呼び出しをネイティブにサポートする点です。これは画像や動画を一度テキストに変換してから処理するのではなく、視覚データをそのままツールに渡して出力を推論チェーンに戻せる仕組みです。結果として中間変換で失われがちな情報を守れます。
たとえば、チャートの数値認識や図の切り出しを行う際、元のビジュアルを直接扱えると精度や可視化の品質が向上します。現場では「画像→テキスト→再解析」という手間が減り、レスポンスも速くなります。
技術の中身をやさしく説明すると
アーキテクチャはVision Transformer(ViT)ベースのエンコーダーと、MLPプロジェクターで視覚特徴を整形し、巨大な言語デコーダと結合する設計です。動画入力は3D畳み込みで時系列圧縮を行い、時空間情報を保持します。
位置情報の扱いには2D RoPE(回転位置エンコーディング。位置をトークンに埋め込む技術)と絶対位置埋め込みの補間を併用しています。専門的にはややこしく聞こえますが、要するに「どの位置の情報か」をテキストと映像の両方で精度よく区別する工夫です。入力のアスペクト比は柔軟で、最大200対1まで対応します。
106Bと9B、どちらを選ぶべきか
実務での使い分けはシンプルです。106Bモデルは巨大な文脈処理やクラウドでの高精度推論向け。大規模文書や複数メディアを統合するタスクに適します。一方の9Bモデルは軽量で低遅延、ローカル環境やエッジ用途に向いています。
例えるなら、106Bが「大図書館の司書」で、9Bは「手際のいい街の図書館員」です。使う場面に応じてどちらかを採用すると、コストと性能のバランスが取りやすくなります。
ライセンスと実運用のポイント
GLM-4.6VはMITライセンスで公開され、重みはHugging Faceで配布されています。商用利用や社内カスタマイズがしやすい点は大きな利点です。ただし、オープンソース導入は導入コストだけでなく、セキュリティや運用ガバナンスの整備が重要になります。
社内での運用を考える際は、モデルサイズに応じたハードウェア設計、ログやデータの扱い、アクセス権管理を早めに決めておくと安心です。
企業が今できる一歩
まずは小さなPoC(概念実証)から始めるのが現実的です。9Bモデルで低遅延のユースケースを試し、106Bは長文や動画統合のワークロードに限定して性能を検証してください。並行してセキュリティポリシーと監査フローを整備すれば、オープンソースの利点を安全に享受できます。
GLM-4.6Vはカスタマイズ性と透明性が強みの一つです。ベンダーロックインを避けたい企業や、自社のインフラでAIを回したいチームにとって、有力な選択肢になり得ます。期待と現実のバランスを取りつつ、段階的に導入を進めてみてください。