ARC-AGI-3

記事数: 1 件

更新 2026年5月3日

ARC-AGI-3が示す「前線モデル1%未満」の謎

ARC-AGI-3が提案したゲーム型の新ベンチマークでは主要な前線モデルが1%未満にとどまり、評価設計が能力の見え方を左右することと、透明性や再現性、データ倫理の整備が現場導入の鍵であることを示唆しています。