タグ一覧に戻る

実務的課題

記事数: 1
AI モデルの現実的な限界が露呈——知識労働ベンチマークで最高性能モデルも3%の成功率

AI モデルの現実的な限界が露呈——知識労働ベンチマークで最高性能モデルも3%の成功率

Artificial Analysis が発表した AA-Briefcase ベンチマークで、複数情報源の統合が必要な現実的な知識労働タスクにおいて、最高性能の Claude Fable 5 でさえ完全な成功率はわずか3%であることが明らかになりました。

続きを読む