Anthropic が 6月9日に公開した Claude Fable 5 は、確かに圧倒的な性能を誇るモデルだ。SWE-Bench Pro では 80.3% を達成し、エンジニアリングタスクで Opus 4.8 や GPT-5.5 を大きく上回っている。

だが、開発者や企業が意思決定する際に見落としやすいポイントがある。トークン価格を 2 倍に引き上げながら、実際の性能向上は 5.7% にとどまるという、コスト対パフォーマンスの現実だ。


ベンチマークスコアの見た目と現実

Artificial Analysis Intelligence Index では、Fable 5 は 64.9 ポイントで トップランク。GPT-5.5 の 59.9 ポイント を約 5 ポイント上回っている。

一見すると「5ポイントの差は大きい」と思えるかもしれない。だが、この 64.9 というスコアは、Opus 4.8 との性能向上を百分率で表すと 5.7% にすぎないのだ。

価格比較表

モデル入力出力価格比
Opus 4.8$5$251.0x
Fable 5$10$502.0x

入力トークン 1000 万個で計算すると、Fable 5 を使うコストは Opus 4.8 の 2 倍。しかし性能向上は 5.7% に過ぎない。


「8% の fallback」が隠れた追加コストに

さらに見落とせない要素がある。Fable 5 には安全性フィルター(safety filter)が搭載されており、約 8% のタスクで、より低性能なモデルにフォールバックしてしまう。

つまり、実際のワークロードでは:

  1. 92% のタスク:Fable 5 の 2 倍コスト で実行
  2. 8% のタスク:低性能モデル でフォールバック(fallback コスト発生)

結果として、期待される性能向上(5.7%)さえ得られないシーンが存在するということだ。


開発者の判断軸:どう選ぶべきか

Fable 5 を選ぶべき場合

  • コーディング、複雑な分析、高度な推論が必須で、性能差による開発生産性向上が価格差を上回る場合
  • 予算に余裕がある大規模プロジェクト・エンタープライズユーザー

Opus 4.8 の方が合理的な場合

  • 汎用的なテキスト処理、翻訳、サマリー、ルーチン業務
  • API コスト削減が重要な小〜中規模プロジェクト
  • ROI が明確でない試験的な導入

実装企業の選択: Stripe は Fable 5 で Ruby コード 50 百万行の移行を 1 日で完了したと報告。ただし、これは「1 回限りの大型プロジェクト」であり、継続的な API 利用とは異なる。毎日数百万トークンを消費する運用では、コスト効率が大きく変わる。


「経済性が重要な選択基準に」

AI モデルの選定は、かつては「最新=最強」という認識で進むことが多かった。だが、THE DECODER の分析が指摘する通り、「economics is becoming a key factor」

市場が成熟するにつれ、単なる性能向上よりも、コストと性能のバランス、実装シーンでの ROIが重視される時代へシフトしている。

Fable 5 は確かに最強モデルだ。だが、「使うべき場面」と「コスト削減で Opus 4.8 を続けるべき場面」を冷徹に分け、プロジェクトごとに判断する必要がある。6月 22 日までの無料期間は、その見極めのための絶好の機会である。