LLM・生成AI
更新
ARC-AGI-3が示す「前線モデル1%未満」の謎
ARC-AGI-3が提案したゲーム型の新ベンチマークでは主要な前線モデルが1%未満にとどまり、評価設計が能力の見え方を左右することと、透明性や再現性、データ倫理の整備が現場導入の鍵であることを示唆しています。
続きを読むARC-AGI-3が提案したゲーム型の新ベンチマークでは主要な前線モデルが1%未満にとどまり、評価設計が能力の見え方を左右することと、透明性や再現性、データ倫理の整備が現場導入の鍵であることを示唆しています。
続きを読むAnthropicのOpus 4.6は、Agent Teamsと100万トークンの文脈ウィンドウで長文処理とチーム協働を現実に近づけます。段階導入とデータ整理で実務効果を引き出せます。
続きを読む