AI推論コスト削減の時代へ——企業が複数モデルで品質を維持
AI利用企業がコスト圧力に直面する中、複数のモデルを戦略的に使い分ける手法が主流化。Harvey の 3 倍コスト削減事例から見える、AI インフラのコスト最適化戦略。
続きを読むAI利用企業がコスト圧力に直面する中、複数のモデルを戦略的に使い分ける手法が主流化。Harvey の 3 倍コスト削減事例から見える、AI インフラのコスト最適化戦略。
続きを読むAI 推論チップ開発の Etched が $50 億の評価に到達。既に $10 億の契約注文を確保し、Stripers の投資ラウンドで総 $8 億の資金調達。推論処理のボトルネックをハードウェアレベルで解決し、Nvidia の独占に風穴を開ける可能性。
続きを読むSina Weibo が公開した 30 億パラメータの VibeThinker-3B は、数学・コーディングで 200~333 倍大きいモデル(DeepSeek V3.2、Kimi K2.5)と互角のスコア。一方、事実知識の問題では大規模モデルに大きく劣後。研究から浮かぶのは、論理的推論は小型モデルに圧縮可能だが、事実知識は圧縮困難という知見。
続きを読むAllen Institute for AI と UC Berkeley の研究チームが、従来の Mixture-of-Experts(MoE)モデルを、全エキスパートの12.5%だけで従来同等の性能を実現する新手法『EMO』を発表。メモリ制約環境での AI 運用が劇的に改善される可能性。
続きを読むOpenAIが3つの新音声モデルを発表。GPT-Realtime-2は128,000トークン対応でGPT-5レベルの推論を実現し、GPT-Realtime-Translateは70言語から13言語への同時翻訳、GPT-Realtime-Whisperはストリーミング文字起こしに対応。すべてRealtime APIを通じて利用可能。
続きを読むGoogle AI が新しいメモリフレームワーク『ReasoningBank』を発表。エージェントが成功と失敗の両方の経験から推論戦略を学習し、継続的に性能を向上させることで、WebArena で 8.3%、SWE-Bench-Verified で 4.6% の成功率改善を実現。
続きを読むOpenAIのCoT-Control提案は、思考連鎖(推論過程)を可視化して安全性を高める試みであり、具体的な検証を待ちつつ開発者は監視性重視の設計と運用リスク評価を早めに進めることが重要です。
続きを読むFirst Proof submissionsは、AIが専門問題に対する最初の証明(推論過程)を公開する取り組みです。現状は情報が限定的ですが、透明性が高まれば研究・教育・実務で役立つ可能性があります。
続きを読むNetomiはGPT-4.1やGPT-5.2を活用し、同時実行・多段推論・ガバナンスという三要素を組み合わせることで、現場で信頼できるエンタープライズAI運用を目指しています。
続きを読むNvidiaがGroqの買収を検討しており、チップ技術と人材の融合でデータセンターの推論効率向上やメモリコスト削減が期待され、AIハードの競争とエコシステム拡大が加速する見込みです。
続きを読むLean4を核に、AIの出力に「証明」を添える検証エコシステムが注目されています。医療や自動運転など高リスク領域での安全性向上に期待が高まり、AristotleやSafeなどの実装と自己修正型の進展で実用化が近づいています。
続きを読む