Claude Code、自動探索で AI スケーリング新アルゴリズムを発見——計算量70%削減を実現

2026年5月25日 05:04

💡

UMD・Google・Meta の研究チームが、Claude Code を使用してテスト時のスケーリング新アルゴリズムを自動発見。信頼度追跡に基づくアルゴリズムが従来の自己一貫性と比べ約70%の計算削減を実現。開発費は40ドル、処理時間は160分。

Claude Code が自動発見した新しいスケーリングアルゴリズム

UMD、UVA、WUSTL、UNC、Google、Meta の研究チームが、Claude Code を使ってアルゴリズム自動探索システム「AutoTTS」を開発し、従来の方法では考え付かないような AI スケーリングアルゴリズムを発見しました。

発見されたアルゴリズムの仕組み

新しいアルゴリズムは「信頼度追跡型」（confidence tracking）という仕組みで動作します。

基本的なロジック

モデルの信頼度を監視 — 回答が確実に見えるかどうかを検証
信頼度がほぼ同じ場合 — より多くの並列推論経路を開く
信頼度が急速に上昇した場合 — 新しい経路の開拓をスキップ
最後に多数決 — 複数の経路から最良の答えを選定

多数派と一致する経路には追加の計算を割き、複数ラウンドで誤った方向に進むと判定された経路のみ削除される仕組みです。

テスト時スケーリング——従来手法との比較

従来の自己一貫性（Self-Consistency）とは

従来の標準的な手法は、同じプロンプトに対して複数回（64個）の並列回答を生成し、多数決で正解を選ぶというものでした。

AutoTTS の成果

新しいアルゴリズムは、この自己一貫性と比べて：

指標	削減量
トークン使用量	約 70% 削減
精度	維持（同等）
開発コスト	40 ドル
実行時間	160 分

自己一貫性と比べて約 70% のトークン削減を達成しながら、同等の精度を保ち続けています。

AutoTTS（自動テスト時スケーリング）の探索方法

AutoTTS は、アルゴリズムの「幅」（並列経路数）と「深さ」（各経路の長さ）という 2 次元の制御空間でアルゴリズムを自動探索します。

Claude Code が複数ラウンドで改良案を提案
各案をテスト環境で実行して性能評価
フィードバックに基づいて次の候補を生成

という反復プロセスを通じて、人間の研究者では思いつかないような効率的なアルゴリズムが発見されました。

実用性と今後の展開

新しいアルゴリズムは、オフライン環境で事前に生成された推論経路を使用するため、実装が可能な設計になっています。ただし現在は幅と深さの 2 次元のみに対応しており、より複雑なスケーリング構造への対応はまだ先の課題です。

研究の意義

このプロジェクトが示すことは：

Claude Code の能力 — アルゴリズム設計の自動化が実現段階にある
計算効率の改善 — テスト時スケーリング領域での大幅なコスト削減が可能
AI による AI 研究 — LLM 自身がより優れた LLM の設計に貢献できる

特に、開発費 40 ドルで 160 分の処理時間という低コストで発見されたという事実は、AI 研究のコスト・効率性が大きく改善されていることを示しています。

まとめ

Claude Code を使った自動アルゴリズム探索は、AI 開発コストの削減と性能の向上を両立させる新しいパラダイムを示唆しています。今後、このようなアプローチがより多くの AI 研究領域で活用される可能性があります。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

Grok 4.5 一般公開、Cursor データで訓練も『自己申告ベンチマーク』に懐疑の声

LLM・生成AI

2026年7月9日

Grok 4.5 一般公開、Cursor データで訓練も『自己申告ベンチマーク』に懐疑の声

SpaceXAI（旧xAI）が Grok 4.5 を一般公開しました。Cursor の実開発セッションを学習に取り込み、Harvey 法律ベンチマークで1位を獲得。価格は入力$2/出力$6（100万トークンあたり）と Opus 4.8 の半分以下ですが、独立系ベンチマークでの検証はまだなく、Cursor ユーザーのコードが無断で学習に使われた可能性も指摘されています。

OpenAI、GPT-Live で同時リッスン・スピーク実装、ChatGPT ユーザーが「自然な会話」を今日から体験

LLM・生成AI

2026年7月9日

OpenAI、GPT-Live で同時リッスン・スピーク実装、ChatGPT ユーザーが「自然な会話」を今日から体験

OpenAI が新音声モデル GPT-Live-1 をリリース。フルデュプレックス技術により、ユーザーは話しながら AI に割り込まれ、30～40 分の長時間会話に対応。ChatGPT 無料ユーザーは GPT-Live-1 mini、有料ユーザーは GPT-Live-1 フル版が利用可能。7 月中に API アクセスも予定。

LLM・生成AI

2026年7月9日

Fable 5 が業界別ベンチマークで全勝するも『100倍のコスト』が課題に

Artificial Analysis の新ベンチマークで、Claude Fable 5 が財務・法律・医療など6つの業界別インデックス全てでトップを獲得。しかし Strategy & Ops インデックスでは Fable 5 は 1タスクあたり $3.48 に対し DeepSeek V4 Pro は $0.03、100倍以上のコスト差が判明。企業の導入判断が価格と性能のバランスで揺れている。

AIエージェントは通常のLLMの136倍のエネルギーを消費──KAIST研究チームが初測定、データセンター電力危機に直結

AI エージェントが従来型生成AI の136.5倍のエネルギーを消費することが判明。検索規模での実装は米国電力消費の半分に相当し、今後の AI インフラ設計は『効率化』が存続条件になります。

Claude Code と Fable 5 で 2003 年のゲーム『Command & Conquer』を数時間で iOS に移植——AI コーディング支援の実力を示す

テクノロジー

2026年7月6日

Claude Code と Fable 5 で 2003 年のゲーム『Command & Conquer』を数時間で iOS に移植——AI コーディング支援の実力を示す

Google DeepMind の開発者が Anthropic の Claude Code と Fable 5 を使い、2003 年の PC 向け RTS ゲーム『Command & Conquer: Generals Zero Hour』を iPhone・iPad にネイティブ移植。初回ビルドは 40 分で完成し、全ソースコードは GitHub で公開済み。

セキュリティ

2026年7月5日

Alibaba、従業員向けに Claude Code を使用禁止に——セキュリティ上の懸念

Alibaba が Claude Code を高リスクソフトウェアに分類し、従業員の利用を禁止したと報じられた。中国企業による米国AI開発ツールの制限動向を示唆している。

Google、Gemini API Managed Agents に背景実行・MCP サポート――非同期処理で開発効率が飛躍

Google Deepmind は Gemini API の Managed Agents に 4 つの新機能を追加。バックグラウンド実行（非同期）、リモート MCP サーバー接続、カスタム関数の統合、認証情報のリフレッシュを実現。開発者は HTTP 接続を保持せずにエージェントを運用できるように

Google Gemini AI エージェント Model Context Protocol API

LLM・生成AI

2026年7月9日

Grok 4.5 一般公開、Cursor データで訓練も『自己申告ベンチマーク』に懐疑の声

xAI SpaceXAI Grok Cursor コーディングAI

Meta の常時 AI グラス『Super Sensing』プライバシー懸念、LED 点灯なしで周囲に気付かれず撮影可能

セキュリティ

2026年7月9日

Meta の常時 AI グラス『Super Sensing』プライバシー懸念、LED 点灯なしで周囲に気付かれず撮影可能

Meta がテスト中の AI グラス『Super Sensing』は、カメラ・マイクで常時周囲を記録しながら、LED インジケータが点灯しないため、撮影者に気付かれない設計。収集映像を Meta AI モデル訓練に利用する計画も明らかになり、プライバシー及び GDPR 対応への懸念が急速に高まっています。

Meta プライバシースマートグラス AI グラスウェアラブル

ロボティクス

2026年7月9日

Mistral がロボティクス参入、単一 RGB カメラで自律 navigation『Robostral Navigate』8B モデル発表

オープンソース LLM で知られる Mistral AI が、ロボティクス市場に本格参入。8 億パラメータの『Robostral Navigate』は単一 RGB カメラのみで複雑環境での自律航行を実現。79.4% の成功率でベンチマーク達成。シミュレーション訓練からの実装、RL による継続的改善を計画。

Mistral ロボティクス navigation AI モデル自律移動

LLM・生成AI

2026年7月9日

OpenAI、GPT-Live で同時リッスン・スピーク実装、ChatGPT ユーザーが「自然な会話」を今日から体験

OpenAI ChatGPT 音声AI GPT-Live リアルタイム会話

LLM・生成AI

2026年7月9日

Fable 5 が業界別ベンチマークで全勝するも『100倍のコスト』が課題に

Anthropic Claude ベンチマーク AI コスト LLM 比較

すべての記事を見る

Claude Code、自動探索で AI スケーリング新アルゴリズムを発見——計算量70%削減を実現

Claude Code が自動発見した新しいスケーリングアルゴリズム