LLM評価

記事数: 3 件

更新 2026年6月28日

Sakana AI が Fugu 発表――マルチモデルオーケストレーションで Fable 5 と同等性能を実現

日本の AI スタートアップ Sakana AI が、複数のモデルを動的に調整する『Fugu』システムを発表。Anthropic の Fable 5・Mythos と同等の性能を実現し、特定ベンダーへの依存を避けるベンダーロック・イン対策が特徴です。

2026年4月19日

RealChart2Code ベンチマークがClaudeやGeminiなど14のAIモデルを試験。複雑な多層チャートではトップモデルでも性能が約50%低下。単純チャートで96%の精度でも実データのグラフ解析では50%に落込む。ビジネス分析ツールとしてのAIの実用性に課題が浮上。

ベンチマーク AI視覚認識 LLM評価データ可視化実装課題

2026年4月10日

Google Research は、会話型 AI エージェント開発における「現実性の欠落」を定量化する評価フレームワーク ConvApparel を発表。データ駆動型アプローチでシミュレーターの挙動精度を大幅に向上させる。