LinkedInのAI人検索:13億人対応の裏側
LinkedInの新AI人検索は13億規模のメンバーグラフを工夫して扱い、自然言語で届きやすい候補を提示する仕組みと実運用の最適化をわかりやすく解説します。
はじめに――検索が“会話”になる日
LinkedInが新しく発表した自然言語によるAI人検索は、単なる検索UIの変更ではありません。13億人規模の「メンバーグラフ」をどう扱うかという、実運用の技術課題を解いた取り組みです。メンバーグラフとは、会員同士のつながりを表す巨大なネットワークのことです。
「がん治療に詳しい人は誰?」といった普通の言葉で問いかけると、従来のキーワード探しとは違って意図を解釈し候補を返してくれます。今回は何が変わり、なぜ時間がかかったのか、そしてどのように作られたかをやさしく解説します。
何が変わるのか:語彙の揺らぎを吸収する検索
今回の最大の変化は、検索バーに自然言語で書けば目的の人物を提示する点です。従来はプロフィールに特定語があるかで合致を判断していました。自然言語検索は、意味を汲んで**「cancer」「oncology」「genomics」**のような語彙差も吸収します。
さらに特徴的なのは到達可能性を重視する点です。世界トップの研究者だけ上位に出すのではなく、「第一度接続」など実際に連絡が取りやすい人を優先します。つまり、コンタクトできる候補を探しやすくする設計です。
ただし性能は入力の書き方やモデル設計に依存します。万能ではないため、過度な期待は禁物です。
なぜ時間がかかったのか:3年と6ヶ月という背景
発表はChatGPT登場から約3年、LinkedInがAI求人検索を導入して6ヶ月後のタイミングでした。これは生成AIを本番の巨大サービスに落とす難しさを示しています。
鍵はスケールです。13億規模のメンバーグラフを、信頼性・速度・精度を保って扱うのは簡単ではありません。大規模対象では一度に全部を作るのではなく、一領域を完成させ横展開する実務的な道が現実的だという教訓が示されました。
技術の核心:ゴールデンデータと多段階パイプライン
チームはまず、実際の検索クエリとプロフィールのペアを数百〜千件ほど集めたゴールデンデータセットを作りました。これは人手で詳細に評価された正解集です。
このゴールデンセットに基づき、基盤モデルへ与えるプロンプトを作り、大量の合成トレーニングデータを生成しました。次に、まず7B(70億)パラメータ級の「Product Policy」モデルを訓練します。
ここで出てくる専門用語を簡単に説明します。
- 蒸留(Distillation):大きなモデルの知識を小さなモデルに移す手法です。大きな先生が小さな生徒に教えるイメージです。
- Retrieval(取得):候補を広く拾ってくる処理で、図書館の索引で本を探すような役割です。
- KLダイバージェンス:確率分布の差を測る指標で、教師の出力を生徒がどれだけ真似ているかを評価します。
7Bモデルは本番では重いため、蒸留を繰り返す多段階圧縮を行いました。具体的には7Bから1.7Bへ、さらに1.7Bから小さな教師へと伝えます。さらにマルチティーチャー方式を採り、関連性に特化した教師と行動予測(接続やフォロー)に強い教師を組み合わせました。
最終的に、確率スコアの分布を模倣するようにスチューデント(生徒)モデルを学習させます。アーキテクチャは二段階で、まず8Bモデルが広域取得を行い、蒸留された小型モデルが詳細なランキングを担当します。
数字で見るチューニングと最適化
- 取得段階:8Bパラメータモデルを使用
- ランキング:当初440Mから220Mへ縮小して運用速度を確保
- 求人検索の運用事例:600M(0.6B)のスチューデント使用
- ゴールデンデータ:数百〜千規模
- プロダクトポリシー文書:20〜30ページ分の細かい規定
入力サイズ削減の工夫も重要でした。強化学習(RL)で訓練したサマライザ(要約器)を用い、入力を約20倍に圧縮し、ランキングスループットを約10倍に高めました。
こうした圧縮と入力削減は、十億級ユーザーを支えるには不可欠な現実的最適化です。ただし成果はデータ特性に左右されるため、他社が同じ数字を出すには独自の検証が必要です。
利用者と企業への影響:誰が得をするか
個人ユーザーは、ネットワーク内で実際にコンタクトしやすい候補を見つけやすくなります。いわば「橋渡しになりうる人」を探しやすくなるわけです。
企業側では、求人検索で学位の有無にかかわらず多様な候補を拾う効果が報告されています。採用の幅が広がる可能性があります。
運用面では、CPUベースの索引からGPUベースの索引へ移行し、インフラ投資が必要になりました。加えて、クエリを意味的処理と従来の語句検索に振り分けるインテリジェントなルーティング層も導入しています。
到達可能性を重視する設計は利点が多い一方で、新たな偏りや公平性の問題を生む可能性もあり、評価指標とポリシー設計が重要です。
落としどころ:実務的な教訓と今後の注目点
LinkedInの示した教訓は明快です。まず一つの縦領域で勝ち、手順を文書化して徹底最適化すること。これが大規模プロダクト化の現実的な近道です。
注目すべき技術は、GPU索引化、マルチティーチャー蒸留、RLサマライザなどです。これらが運用コストとUXの両方を左右します。
ただしLinkedInの“クックブック”はあくまで一例です。各社は自社データと目標に合わせて検証し、調整する必要があります。
最後に一言。大規模な生成AIを実サービスに落とし込むには、小さく始めて反復する地道な努力が欠かせません。今回の取り組みは、その重要性を改めて示した好例と言えるでしょう。