FACTSベンチで読み解くLLM事実性
FACTSベンチはGrounding v2を含む4ベンチで公開・私設データ(公開3,513件)を併用しLLMの事実性を総合評価し、Gemini 3 Proが68.8%で首位となり改善の方向性を示しています。
FACTSベンチで読み解くLLM事実性
AIモデルの事実性が、最近また注目を集めています。事実性(factuality)とは、モデルが出す答えが現実や情報源に照らして正しいかを指します。言い換えれば、AIの“健康診断”のようなものです。
FACTSベンチとは、複数の評価項目を統合してLLM(大規模言語モデル)の事実性を総合的に測るためのベンチマーク群です。今回の改訂では、既存のGrounding v2の拡張に加え、3つの新設ベンチを統合し、合計4つのベンチで評価する体系になりました。
全体像と評価方針
この統合評価は、モデルを一方向だけでなく多角的に検証する試みです。公開セットと私設セット(外部に非公開の検証用データ)を組み合わせる方針は、再現性と実務的な厳しさを両立させるねらいがあります。
公開データは研究者が比較しやすい反面、私設データが非公開だと外部チェックの機会が限られます。透明性の確保と運用ルールの明示が今後の重要課題になるでしょう。
4つのベンチとデータ配分
今回の公開データは合計3,513件が提供されています。内訳はおおむね以下のとおりです。
- Parametric: 1,052件
- Search: 公開890件、私設994件
- Multimodal: 公開711件、私設811件
Grounding v2は拡張版としてこの枠組みに組み込まれました。公開データはモデル比較の基準として便利です。とはいえ、私設セットの扱い方次第で評価の信頼度が左右されます。
評価結果のハイライト
最新のスコアでは、Gemini 3 ProがFACTS Scoreで68.8%とトップに立ちました。特にSearchとParametric領域で改善が顕著です。前モデルのGemini 2.5 Proからの改善率は、FACTS Searchのエラーが約55%減、FACTS Parametricは約35%減でした。
一方でMultimodal(画像や複数モーダルにまたがる評価)は相対的に低めで、70%未満にとどまっています。SimpleQA Verifiedという単純なQA形式では54.5%から72.1%へ上昇しており、ウェブ検索とパラメトリック回答の精度向上が伺えます。
この結果は、テキスト中心の改善が進む一方で、マルチモーダル対応の課題が残ることを示しています。全体的な向上には、各領域を同時に改善する多面的なアプローチが必要です。
研究・企業・開発現場への波及
FACTSベンチの結果は、モデル選定や研究の指針になります。Kaggleなどが私設のheld-outセットを管理し、主要LLMのランキングを公開する仕組みも取り入れられています。
ただし、公開リーダーボードだけを鵜呑みにせず、前提条件やデータ構成を理解することが重要です。実務導入の際は、更新頻度やデータの透明性も判断材料にしてください。
今後の展望と実務での使いどころ
LLMの事実性評価はまだ進化の途中です。FACTS Benchmark Suiteは評価手法の標準化へ向けた一歩です。今後は以下が鍵になります。
- データセットの透明性と更新方針の明示
- 長期的なパフォーマンス追跡
- マルチモーダル性能の強化
実務では、ベンチマーク結果だけでなく、用途に応じた評価軸の使い分けが求められます。たとえば、社内ドキュメントの正確性を重視するならParametric重視、外部情報の参照が多ければSearchの評価を重視する、といった具合です。
最後に一言。評価はゴールではなく、改善のための地図です。FACTSベンチはその地図をより細かく、実用的にしてくれるはずです。