LLM・生成AI
更新
ARC-AGI-3が示す「前線モデル1%未満」の謎
ARC-AGI-3が提案したゲーム型の新ベンチマークでは主要な前線モデルが1%未満にとどまり、評価設計が能力の見え方を左右することと、透明性や再現性、データ倫理の整備が現場導入の鍵であることを示唆しています。
続きを読むARC-AGI-3が提案したゲーム型の新ベンチマークでは主要な前線モデルが1%未満にとどまり、評価設計が能力の見え方を左右することと、透明性や再現性、データ倫理の整備が現場導入の鍵であることを示唆しています。
続きを読むOpenAIの研究者Sebastian BubeckとErnest Ryuは、数学が汎用AI(AGI)達成度の客観的測定基準であると主張。2年間で小学算数から研究数学へ進化したモデルの能力から、長期的推論能力の急速な拡張を指摘する。
続きを読むAlibaba の Qwen チームが開発した HopChain は、視覚言語モデルが複数ステップの推論で失敗する問題に対応。多段階の画像質問を自動生成し、ベンチマーク24個中20個で性能向上を実現した。
続きを読む