NextAI 海外で話題の最新AIニュース

記事一覧に戻る

Sakana AI が Fugu 発表――マルチモデルオーケストレーションで Fable 5 と同等性能を実現

2026年6月22日 18:12

Sakana AI が Fugu 発表――マルチモデルオーケストレーションで Fable 5 と同等性能を実現

Photo by Steve A Johnson on Unsplash

💡

日本の AI スタートアップ Sakana AI が、複数のモデルを動的に調整する『Fugu』システムを発表。Anthropic の Fable 5・Mythos と同等の性能を実現し、特定ベンダーへの依存を避けるベンダーロック・イン対策が特徴です。

日本の AI スタートアップ Sakana AI が、複数の言語モデルを動的に調整する新しいシステム「Fugu」を発表しました。Anthropic の最先端モデル Fable 5 や Mythos Preview と同等の性能を実現しながら、特定ベンダーへの依存を減らす設計が注目されています。

Fugu システムが実現すること

Fugu は「マルチLLMオーケストレータ」と呼ばれるシステムで、ユーザー側からは単一のモデルのように見えます。OpenAI 互換の API を通じてアクセスでき、バックエンド内部では複雑な判断が行われています。

タスクの内容に応じて、システムが自動的に判断します。単純なタスクなら自力で処理し、複雑な問題が来たら複数の特化したモデルをチーム編成して対応するという仕組みです。この柔軟な設計により、コストと性能のバランスを取りながら高い精度を維持できます。

ベンチマーク結果で Fable 5 と競合

Sakana AI が公表したベンチマーク結果は業界注目です。ソフトウェアエンジニア能力を測定する「SWE Bench Pro」では、Fugu Ultra が 73.7% を達成。これは Claude 3.5 Sonnet（Opus 4.8）の 69.2% を上回り、Gemini 3.1 Pro の 54.2% も圧倒しています。

知識推論テスト「GPQA-D」では Fugu Ultra が 95.5% を記録し、Opus 4.8 の 92.0% を上回りました。重要な注釈として、Anthropic の Fable 5・Mythos はまだ公開されていないため、正式なベンチマーク比較は行われていません。ただし、Sakana AI が「同等性能」と主張する根拠は十分に説得力があります。

開発者からの高評価

ベータテストに参加した約 500 人の開発者からは肯定的なフィードバックが寄せられています。特に注目されるのは「長く複雑なワークフロー」での性能です。あるソフトウェア開発者は「Fugu Ultra は従来ツールの 20 倍以上のバグを検出した」と述べており、プロフェッショナルな開発環境での活用が期待されています。

ベンダーロック・イン対策が最大の特徴

Fugu の最大の強みは、その設計哲学にあります。モデルプール内部が「完全に交換可能」な構造になっており、特定プロバイダへのアクセスが制限されても、別のモデルに切り替えられます。

これは現在のジオポリティカルな課題と直結しています。最近、Anthropic が規制措置の対象になっているように、特定企業の API への依存は重大なリスクになり得ます。Fugu のアプローチは、このようなリスクを最小化しながら最先端のモデル性能を享受できる、実用的な戦略を示唆しています。

実用的な選択肢

Fugu は 2 つのバリエーションで提供されます。基本版は低遅延と日常的なタスクに最適化され、Fugu Ultra は AI 研究、セキュリティ分析、特許検索など複雑で高精度が求められる作業向けです。

開発者が今日から試験できるようになる実装モデルでもあり、マルチモデルオーケストレーション技術が実務レベルで機能することを示す重要な事例になっています。

記事をシェア

タグ

Sakana Fugu マルチLLM オーケストレーション LLM評価

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

Sam Altman が『スケーリング批評家は間違っている』と講演——OpenAI が数学的予想を反証

2026年6月22日

Sam Altman が『スケーリング批評家は間違っている』と講演——OpenAI が数学的予想を反証

OpenAI CEO が Stanford で講演。AIのスケーリング継続を強調し、懐疑論者を反論。OpenAI が難しい数学的予想を反証した事例を根拠として挙げ、スケーリング重視アプローチが業界の主流であることを示した。

Siri以外も充実——iOS 27に隠れた8つの実用AI機能、支払い分割からパスワード管理まで

2026年6月22日

Siri以外も充実——iOS 27に隠れた8つの実用AI機能、支払い分割からパスワード管理まで

Apple が iOS 27 で発表した Siri AI のニュースの裏で、iPhone の日常操作を変える8つの実用AI機能が登場する。領収書分割、パスワード自動更新、メッセージ提案など、ユーザーが「今日から使える」機能が集まった。

OpenAI、Codex の新機能「Record & Replay」が利用開始——ワークフローを一度見せるだけで自動化スキルに変換

2026年6月21日

OpenAI、Codex の新機能「Record & Replay」が利用開始——ワークフローを一度見せるだけで自動化スキルに変換

OpenAI は Codex アプリ（macOS 版）に「Record & Replay」機能をリリースしました。ユーザーが業務フローを一度実演すると、AI が自動化可能な「スキル」に変換・記憶し、以降は同じタスクを自動繰り返実行できるようになります。

関連タグの記事

Mistral AI、エンタープライズ向け『Workflows』をローンチ——AI プロセスの本番運用を実現

テクノロジー

2026年4月29日

Mistral AI、エンタープライズ向け『Workflows』をローンチ——AI プロセスの本番運用を実現

Mistral AI がワークフローオーケストレーション機能『Workflows』を発表。Python で AI プロセスを構築・自動化し、人間の承認チェックポイントを組み込める。Netflix・Stripe と同じ Temporal エンジンを採用、プライバシー重視の設計で企業導入が拡大中。

複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界

テクノロジー

2026年4月19日

複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界

RealChart2Code ベンチマークがClaudeやGeminiなど14のAIモデルを試験。複雑な多層チャートではトップモデルでも性能が約50%低下。単純チャートで96%の精度でも実データのグラフ解析では50%に落込む。ビジネス分析ツールとしてのAIの実用性に課題が浮上。

Google Research が LLM ベースのユーザシミュレーター評価フレームワーク「ConvApparel」を公開

2026年4月10日

Google Research が LLM ベースのユーザシミュレーター評価フレームワーク「ConvApparel」を公開

Google Research は、会話型 AI エージェント開発における「現実性の欠落」を定量化する評価フレームワーク ConvApparel を発表。データ駆動型アプローチでシミュレーターの挙動精度を大幅に向上させる。

最新記事

セクストーション被害が世界で拡大――成人の 14.5% が被害経験、AI が悪用の手口を進化させている

セキュリティ

2026年6月22日

セクストーション被害が世界で拡大――成人の 14.5% が被害経験、AI が悪用の手口を進化させている

オーストラリアの啓発キャンペーンが示す通り、セクストーション（セクシャル脅迫）被害は世界中で深刻化。10 カ国の調査では成人の 14.5% が被害経験を持ち、ディープフェイクや自動化 AI が詐欺師たちの手口を急速に進化させています。

セクストーション詐欺ディープフェイク AI悪用被害者支援

Sam Altman が『スケーリング批評家は間違っている』と講演——OpenAI が数学的予想を反証

2026年6月22日

Sam Altman が『スケーリング批評家は間違っている』と講演——OpenAI が数学的予想を反証

OpenAI CEO が Stanford で講演。AIのスケーリング継続を強調し、懐疑論者を反論。OpenAI が難しい数学的予想を反証した事例を根拠として挙げ、スケーリング重視アプローチが業界の主流であることを示した。

OpenAI Sam Altman スケーリング LLM Stanford

Samsung が ChatGPT と Codex を企業導入、OpenAI 最大級の展開

更新 2026年6月22日

Samsung が ChatGPT と Codex を企業導入、OpenAI 最大級の展開

Samsung Electronics が OpenAI の ChatGPT Enterprise と Codex を全従業員向けに展開。大型企業による AI 導入が加速

ChatGPT OpenAI Samsung 企業導入 AI

AI が成績を水増ししている――UC Berkeley の大規模研究が示す成績と学習の致命的な乖離

政策・規制

2026年6月22日

AI が成績を水増ししている――UC Berkeley の大規模研究が示す成績と学習の致命的な乖離

UC Berkeley による50万件以上のグレード分析で、ChatGPT リリース以来、学生の宿題成績は急上昇しているが試験成績は変わらないことが判明。AI が実学習を代替し、スキルギャップが拡大する危機が明かされた。

AI 教育研究 ChatGPT

Siri以外も充実——iOS 27に隠れた8つの実用AI機能、支払い分割からパスワード管理まで

2026年6月22日

Siri以外も充実——iOS 27に隠れた8つの実用AI機能、支払い分割からパスワード管理まで

Apple が iOS 27 で発表した Siri AI のニュースの裏で、iPhone の日常操作を変える8つの実用AI機能が登場する。領収書分割、パスワード自動更新、メッセージ提案など、ユーザーが「今日から使える」機能が集まった。

Apple iOS 27 AI Apple Intelligence iPhone

AWS が Continuum・Context を発表——AI エージェント時代のセキュリティ・信頼性課題に両面で対応

2026年6月21日

AWS が Continuum・Context を発表——AI エージェント時代のセキュリティ・信頼性課題に両面で対応

AWS Summit NYC で新サービス 2 つを発表。Continuum は脆弱性検出・修復を自動化し、Context はエンタープライズデータから知識グラフを構築。AI エージェントの信頼性を飛躍的に高める仕組みが整った。

AWS AIエージェントセキュリティ企業導入 Continuum

すべての記事を見る