実務的課題の記事一覧

2026年6月20日

AI モデルの現実的な限界が露呈——知識労働ベンチマークで最高性能モデルも3%の成功率

Artificial Analysis が発表した AA-Briefcase ベンチマークで、複数情報源の統合が必要な現実的な知識労働タスクにおいて、最高性能の Claude Fable 5 でさえ完全な成功率はわずか3%であることが明らかになりました。