Anthropic は、生物情報学分野において AI モデルの実力を測定するための新しいベンチマーク「BioMysteryBench」を発表しました。このベンチマークは、既存の評価方法の限界を補い、実在のノイズや複雑さを含むリアルなデータセットに基づいた 99 個の問題で構成されています。

Claude が示した生物情報工学での能力

Claude Mythos Preview は、解答が可能な 76 問において 82.6% の精度を達成し、人間の生物情報学専門家と同等のパフォーマンスを示しました。さらに、全ての専門家が解けなかった難易度の高い 23 問の中でも、29.6% の成功率を記録しています。

独自のアプローチが示す優位性

Claude の興味深い特徴として、「複数のアプローチを重ねて組み合わせ、異なる手法が収束した答えを選ぶ」という戦略が観察されました。この方法論は人間の専門家の思考プロセスとは異なる優位性を示唆しており、AI が生物情報学的な問題にどのように取り組むかを理解する上で重要な知見となります。

実用化への課題と慎重な評価の必要性

ただし重要な注意点があります。一貫性分析により、難しい問題での成功は「5 回の試行中 1~2 回だけ成功する」パターンが見られることが判明しました。これは、モデルが確立された再現可能な戦略ではなく、偶然の解答経路にたどり着いている可能性を示唆しています。

実際の医療・研究現場での活用を想定する場合、この変動性は慎重に評価する必要があります。Claude の生物情報工学での能力は確実に高いレベルに達していますが、実運用では複数回の検証や人間の専門家による確認が依然として重要であることを示唆しています。

学術分野への AI の浸透を示すマイルストーン

BioMysteryBench の開発と Claude の成績は、生成 AI が単なるテキスト生成ツールから、実務的な科学問題の解決へと応用される過程を示す重要なマイルストーンです。今後、医療や創薬、遺伝学などの分野で AI がどのように統合されていくのか、その展望が開けてきました。