Anthropic の Claude、生物情報工学ベンチマークで人間の専門家に並ぶ成績を達成

2026年5月1日 00:10

💡

Anthropic が開発した新しいベンチマーク「BioMysteryBench」で、Claude Mythos Preview は実在のノイズを含むデータセットに対して、人間の専門家と同等の精度 82.6% を記録しました。

Anthropic は、生物情報学分野において AI モデルの実力を測定するための新しいベンチマーク「BioMysteryBench」を発表しました。このベンチマークは、既存の評価方法の限界を補い、実在のノイズや複雑さを含むリアルなデータセットに基づいた 99 個の問題で構成されています。

Claude が示した生物情報工学での能力

Claude Mythos Preview は、解答が可能な 76 問において 82.6% の精度を達成し、人間の生物情報学専門家と同等のパフォーマンスを示しました。さらに、全ての専門家が解けなかった難易度の高い 23 問の中でも、29.6% の成功率を記録しています。

独自のアプローチが示す優位性

Claude の興味深い特徴として、「複数のアプローチを重ねて組み合わせ、異なる手法が収束した答えを選ぶ」という戦略が観察されました。この方法論は人間の専門家の思考プロセスとは異なる優位性を示唆しており、AI が生物情報学的な問題にどのように取り組むかを理解する上で重要な知見となります。

実用化への課題と慎重な評価の必要性

ただし重要な注意点があります。一貫性分析により、難しい問題での成功は「5 回の試行中 1～2 回だけ成功する」パターンが見られることが判明しました。これは、モデルが確立された再現可能な戦略ではなく、偶然の解答経路にたどり着いている可能性を示唆しています。

実際の医療・研究現場での活用を想定する場合、この変動性は慎重に評価する必要があります。Claude の生物情報工学での能力は確実に高いレベルに達していますが、実運用では複数回の検証や人間の専門家による確認が依然として重要であることを示唆しています。

学術分野への AI の浸透を示すマイルストーン

BioMysteryBench の開発と Claude の成績は、生成 AI が単なるテキスト生成ツールから、実務的な科学問題の解決へと応用される過程を示す重要なマイルストーンです。今後、医療や創薬、遺伝学などの分野で AI がどのように統合されていくのか、その展望が開けてきました。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

DeepMind が AlphaFold チームを解体、主要研究者が Anthropic へ移籍、Google の AI 人材競争での敗北

LLM・生成AI

2026年7月30日

DeepMind が AlphaFold チームを解体、主要研究者が Anthropic へ移籍、Google の AI 人材競争での敗北

Nobel laureate の John Jumper ら AlphaFold の中核著者が Anthropic に転職。Google Deepmind の「grand challenge」戦略から Frontier AI への転換が急加速。

OpenAI、10 万人の学術研究者に ChatGPT 最新モデルの無料アクセス提供

LLM・生成AI

2026年7月30日

OpenAI、10 万人の学術研究者に ChatGPT 最新モデルの無料アクセス提供

OpenAI が学術研究者向け新プログラムを開始。100,000 人の研究者に ChatGPT の最先端 AI モデルへの無料アクセスを提供し、科学研究の加速を支援。

OpenAI が GPT Transcribe 新版リリース、音声認識を 25% 値下げ・精度も向上

LLM・生成AI

2026年7月29日

OpenAI が GPT Transcribe 新版リリース、音声認識を 25% 値下げ・精度も向上

OpenAI は音声認識 API「GPT Transcribe」の新版をリリース。エラー率を 3.98% から 3.31% に改善し、価格を 25% 低下させて 1 分あたり 0.0045 ドルに設定。処理速度は実時間の 34 倍を実現。競合ツール（ElevenLabs Scribe v2、Google Gemini 3 Pro）との精度比較と API 仕様を解説。

Fable 5 が業界別ベンチマークで全勝するも『100倍のコスト』が課題に

Artificial Analysis の新ベンチマークで、Claude Fable 5 が財務・法律・医療など6つの業界別インデックス全てでトップを獲得。しかし Strategy & Ops インデックスでは Fable 5 は 1タスクあたり $3.48 に対し DeepSeek V4 Pro は $0.03、100倍以上のコスト差が判明。企業の導入判断が価格と性能のバランスで揺れている。