Google Research が、合成データセット生成を「データセットレベルの機構設計問題」として再構成する新フレームワーク「Simula」を発表した。従来のサンプル単位の最適化ではなく、データセット全体を体系的に設計することで、AI 学習データの生成効率と品質の向上を実現している。

機構設計的アプローチへの転換

従来のランダムサンプリングやヒューリスティックな手法ではなく、Simula は「カバレッジ、複雑性、品質は独立制御可能な変数である」という設計思想に基づいている。機構設計(メカニズムデザイン)の理論を応用することで、リソースを最適配分し、より効果的な合成データセットを生成する道筋を示している。

4 ステップの制御可能な生成プロセス

Simula は以下の 4 つのステップで、全体的にバランスの取れたデータセットを構築する:

  1. グローバル多様性:推論モデルを使用して領域の概念空間を階層的分類体系にマッピングし、カバレッジを確保
  2. ローカル多様性:メタプロンプトから複数の異なるシナリオを生成して、各カテゴリ内での変動性を付与
  3. 複雑化:難易度分布をシステムの意図に合わせて調整し、特定の複雑度を持つサンプルを計画的に生成
  4. 品質検証:デュアルクリティック機構で生成データの正確性と一貫性を確保

推論ベースのメトリクスで定量化

従来のデータセット評価は主観的であったが、Simula は「分類体系的カバレッジ」や「校正済み複雑性スコアリング」といった推論ベースのメトリクスを採用している。これにより、データ品質を定量化し、モデルのニーズに応じたデータセットを再現可能に設計できるようになる。

AI 学習データの品質がモデル性能に直結する今、Google Research のこのアプローチは、合成データの活用領域をさらに拡大させる可能性を秘めている。