タグ一覧に戻る

スキル機能

記事数: 1

AIエージェントのスキル機能、ベンチマークでは高性能も現実環境では劇的に低下——研究論文

UC Santa BarbaraやMIT CSAILの研究チームが34,000件の実世界スキルを検証。ベンチマーク環境では55%の成功率が、現実的な条件下では35%まで低下することを発表。弱いモデルはスキルがあると逆にパフォーマンス低下。

続きを読む