Microsoft の Bing チームが、多言語対応の埋め込みモデル「Harrier」をオープンソース化した。MIT ライセンスで Hugging Face を通じて公開され、情報検索や AI グラウンディングの用途を想定している。

Harrier モデルの仕様

Harrier は27億(27B)パラメータを搭載した埋め込みモデルで、同時に270M(2億7000万)と600M(6億)パラメータの小型バリアントも提供される。コンテキストウィンドウは 27B 版で最大 131,072 トークンをサポートし、埋め込み次元は 5,376 である。

100以上の言語に対応しており、多言語環境での活用が可能だ。モデルは20億以上の例とGPT-5由来の合成データで訓練されている。

ベンチマーク成績でトップ獲得

Harrier は多言語埋め込みベンチマーク「MTEB v2」でトップ成績を記録。ゼロショット評価で78%のスコアを達成し、OpenAI や Amazon といったプロプライエタリモデルを上回っている。

この成績は、埋め込みモデルの品質がオープンソース化によっても損なわれないことを示す。複数のパラメータサイズが提供されるため、異なるハードウェア環境でも活用が容易である。

AI システムにおける埋め込みモデルの重要性

埋め込みモデルは、テキストや画像をベクトル化し、意味的な検索やマッチングを実現する基盤技術だ。Harrier がオープンソース化されることで、開発者が独自の検索システムや AI グラウンディングサービスを構築する際に、高精度なモデルを自由に活用できるようになる。

Bing への統合も計画されており、検索体験の向上にも期待がかかっている。オープンソース化によって、業界全体の埋め込み技術の発展が加速される可能性がある。