Microsoft、Harrier 埋め込みモデルをオープンソース化 100言語対応
Microsoft の Bing チームが、多言語対応の埋め込みモデル『Harrier』をオープンソース化。27億パラメータの大型モデルで、MTEB v2 ベンチマークでトップ成績(78%)を記録。MIT ライセンスで Hugging Face で公開される。
Microsoft の Bing チームが、多言語対応の埋め込みモデル「Harrier」をオープンソース化した。MIT ライセンスで Hugging Face を通じて公開され、情報検索や AI グラウンディングの用途を想定している。
Harrier モデルの仕様
Harrier は27億(27B)パラメータを搭載した埋め込みモデルで、同時に270M(2億7000万)と600M(6億)パラメータの小型バリアントも提供される。コンテキストウィンドウは 27B 版で最大 131,072 トークンをサポートし、埋め込み次元は 5,376 である。
100以上の言語に対応しており、多言語環境での活用が可能だ。モデルは20億以上の例とGPT-5由来の合成データで訓練されている。
ベンチマーク成績でトップ獲得
Harrier は多言語埋め込みベンチマーク「MTEB v2」でトップ成績を記録。ゼロショット評価で78%のスコアを達成し、OpenAI や Amazon といったプロプライエタリモデルを上回っている。
この成績は、埋め込みモデルの品質がオープンソース化によっても損なわれないことを示す。複数のパラメータサイズが提供されるため、異なるハードウェア環境でも活用が容易である。
AI システムにおける埋め込みモデルの重要性
埋め込みモデルは、テキストや画像をベクトル化し、意味的な検索やマッチングを実現する基盤技術だ。Harrier がオープンソース化されることで、開発者が独自の検索システムや AI グラウンディングサービスを構築する際に、高精度なモデルを自由に活用できるようになる。
Bing への統合も計画されており、検索体験の向上にも期待がかかっている。オープンソース化によって、業界全体の埋め込み技術の発展が加速される可能性がある。