AI モデルの現実的な限界が露呈——知識労働ベンチマークで最高性能モデルも3%の成功率
Artificial Analysis が発表した AA-Briefcase ベンチマークで、複数情報源の統合が必要な現実的な知識労働タスクにおいて、最高性能の Claude Fable 5 でさえ完全な成功率はわずか3%であることが明らかになりました。
続きを読むArtificial Analysis が発表した AA-Briefcase ベンチマークで、複数情報源の統合が必要な現実的な知識労働タスクにおいて、最高性能の Claude Fable 5 でさえ完全な成功率はわずか3%であることが明らかになりました。
続きを読む