Epoch AIが暴いたAIベンチの盲点

2026年1月10日 20:30

Photo by Roman Wimmers on Unsplash

💡

Epoch AIの分析は、AIベンチマークの透明性と再現性を高める方向性を示し、実務での評価改善や意思決定の質向上に役立つ具体的な対策を促します。

Epoch AIが暴いたAIベンチの盲点

AIの性能を比較する際によく使われるベンチマーク。ベンチマークとは、AIモデルの性能を同じ基準で測るための評価テストです。ですが、最新のEpoch AIの分析は、その

記事をシェア

参考ソース

THE DECODER

技術の記事

Runway、生成メディア向けインフラプラットフォーム「Media Router」を公開。複数モデルを品質・速度・コストで最適化

テクノロジー

2026年7月24日

Runway、生成メディア向けインフラプラットフォーム「Media Router」を公開。複数モデルを品質・速度・コストで最適化

動画生成 AI の Runway は、Runway Dev プラットフォーム上に Media Router を発表。複数企業のモデルを統合し、品質・スピード・コストの優先度に応じて最適なモデルを自動選択するインテリジェンスレイヤー。Adobe、Cloudflare などが既に導入。

Nvidia Jetson が月面へ、2028年の人類月面復帰を支援する AI チップ戦略

テクノロジー

2026年7月24日

Nvidia Jetson が月面へ、2028年の人類月面復帰を支援する AI チップ戦略

Nvidia が月面ローバーに Jetson チップを搭載。月面初の GPU となる可能性があり、NASA の民間企業連携による 2028 年人類復帰計画を技術面から支援。Nvidia の「GPU はどこへでも」戦略が宇宙まで拡大。

Substack が新ツール「AI 検出」をリリース、ニュースレター読者が記事の AI 使用度を一目で確認

テクノロジー

2026年7月23日

Substack が新ツール「AI 検出」をリリース、ニュースレター読者が記事の AI 使用度を一目で確認

Substack は AI ライティング検出ソフト Pangram と連携し、読者がニュースレターの AI 使用度を推定できるツールを導入。透明性を強化し、低品質な AI コンテンツに対抗します。

医療用AIが患者の命を誤判定する恐れ——放射線科医より信頼度が低い結果

インド・CRASH Labが開発したRadLE 2.0ベンチマーク。人間の放射線科医を超えると期待されたAIが、実は間違った診断でも高い信頼度を示す。Claude Fable 5や他モデルも、『知らないことを知らない』リスクが明らかに。

OpenAI、GPT-5.6 を 3 つのモデルで展開──Sol が Fable 5 を上回る性能、コーディングで 54% 効率化

LLM・生成AI

2026年7月10日

OpenAI、GPT-5.6 を 3 つのモデルで展開──Sol が Fable 5 を上回る性能、コーディングで 54% 効率化

OpenAI は GPT-5.6 ファミリーを Sol（高性能）、Terra（中位）、Luna（低価格）の 3 層で提供。Sol は Anthropic の Fable 5 より 2.8 ポイント上回るコーディング性能を実現し、サイバーセキュリティに特化した仕様。

GPT-5.6 Sol は Fable 5 より38%安い―― ChatGPT Work で開発ワークフロー激変

LLM・生成AI

更新 2026年7月11日

GPT-5.6 Sol は Fable 5 より38%安い―― ChatGPT Work で開発ワークフロー激変

OpenAIが公開したGPT-5.6 Sol はベンチマークでClaude Fable 5に肩を並べながら、価格は大幅値下げ。同時にChatGPT Work という自動エージェントが登場し、複数アプリ連携で数時間かけて大型プロジェクトを自動化。開発者向けの選択肢が激増する局面に。

AI の安全対策がセキュリティ研究者を追い出す—米国のガードレール検証が逆に中国製モデルへの移行を加速

OpenAI と Anthropic のガードレール検証プログラムが、正規の防御的セキュリティ研究を阻害。研究者が米国統治システムから外国製 AI モデルへ追い出され、国家安全保障上のリスク浮上。チェックアンドバランスの失敗事例。

AI guardrails cybersecurity セキュリティ研究 OpenAI Anthropic

ChatGPT Health の無料/有料品質差、医学ベンチマークで最大38%の開き

LLM・生成AI

2026年7月24日

ChatGPT Health の無料/有料品質差、医学ベンチマークで最大38%の開き

OpenAI が ChatGPT Health のベンチマーク結果を公開。無料版（GPT-5.5 Instant）と有料版（GPT-5.6 Sol）で、健康アドバイスの完全性・有用性に大きな差。300 万人以上が週単位で ChatGPT に医療相談をしている中、品質格差の影響を考察。

ChatGPT OpenAI 医療AI 品質差有料版

セキュリティ

2026年7月24日

元 Google セキュリティチームが $36M 調達—AI が『ルールでは捕捉できないフィッシング』を自動防御する時代へ

Gmail セキュリティの立役者 Cy Khormaee と Ryan Luo が設立した AegisAI が Series A で $36M 調達。従来のルールベース防御では検出できない AI 駆動型スパアフィッシング攻撃を、AI エージェントが『人間のように分析』して検出する新世代セキュリティソリューション。

AegisAI フィッシング対策 AI セキュリティメール防御セキュリティスタートアップ