University of Glasgow と Florida State University の研究チームが、機械学習ツール TabPFN に地理空間対応機能「TabPFN-GSA(Geospatial Sparse Attention)」を追加した。これにより、最大70,000行のデータセット分析が可能になり、環境監視から都市計画まで幅広い応用が広がった。

「近いものほど関連性が高い」という地理学の原則を機械学習へ

TabPFN-GSA の技術的な工夫は、シンプルだが効果的だ。地理空間データを扱う際、従来の TabPFN はすべてのデータポイント間の距離を計算する必要があり、大規模データセットでは計算量が爆発した。

新機能は、分析対象の地域をグリッドに分割し、データポイント間の相対距離を事前に把握することで、遠く離れたデータを捨象する。地理学の基本原則「近いものほど関連性が高い」を注意機構に組み込むことで、ローカルな観察を優先させ、メモリ効率を大幅に改善した。

実現した処理能力

  • 従来不可能処理可能:約70,000行のデータセット
  • 精度向上:30の合成データセットと4つの実世界データセットで検証済み
  • 堅牢性向上:地理的スパースネスにより、外れ値やノイズに強くなった

実用分野は広範

研究チームは以下の分野での実用例を示している:

分野
環境監視大気汚染測定値の局所予測
不動産市場地域別の住宅価格分析
公衆衛生郡別の貧困率分析
政治分析2020年米大統領選の郡別投票結果予測
都市計画地域開発計画の需要予測

オープンソースで即座に利用可能

TabPFN-GSA は GitHub で無料のオープンソースソフトウェアとして公開されている(github.com/ruid7181/)。クラウド依存なしにオンプレミスで実装・テスト可能であり、データサイエンティストや研究機関がすぐに採用できる利点がある。

University of Glasgow の博士課程研究者 Rui Deng が筆頭著者を務めた本研究は、大規模ジオスペーシャルデータセットへの実用化という長年の課題を大きく前進させた。