Anthropic が Claude Sonnet 5 をリリース、エージェンティック機能で Opus と同等性能を低価格実現

2026年7月1日 04:12

💡

Anthropic は Claude Sonnet 5 をリリース。前モデル Sonnet 4.6 から大幅に向上し、Opus 4.8 と同等の性能を実現。複雑なツール利用・推論・コード作成に対応。導入期間は入力 $2/M トークンという破格の価格設定。

Anthropic は 6 月 30 日、新しい中規模モデル「Claude Sonnet 5」をリリースした。同社は本モデルを「これまで最もエージェンティックな Sonnet である」と位置付けており、ソフトウェア開発やツール利用、複雑な推論で前世代を大きく上回る性能を実現している。ブラウザやターミナルなどを自律的に操作する能力を持ち、これまで大型で高価なモデルが必要だったタスクを低コストで処理できる時代が到来した。

性能の大幅な向上

Claude Sonnet 5 は前世代モデル「Sonnet 4.6」から顕著な性能向上を達成している。エージェンティックタスクの指標となるベンチマークで、特にコード実行能力を示す「Terminal-Bench 2.1」では 80.4%（前モデル比 13.4 ポイント向上）、ソフトウェア開発全般の「SWE-bench Pro」では 63.2%（5.1 ポイント向上）という成績を記録した。

特筆すべきは、知識作業能力を測定する「GDPval-AA v2」で 1,618 ポイントを達成し、より高価な上位モデル「Opus 4.8」の 1,615 ポイントを上回った点である。高度な推論問題「Humanity’s Last Exam」でも 57.4%を達成し、Opus 4.8 の 57.9%に迫る性能を示している。これは Sonnet グレードのモデルが初めて Opus 級の性能に到達したことを意味する。

エージェンティック機能への最適化

Claude Sonnet 5 は複数段階のタスク自動実行に最適化されている。ブラウザやターミナルなどのツールを明示的な指示なしに自動選択し、複数の作業を自力で完走できる。また、生成した出力の検証を自動的に行い、エラーや矛盾を自己訂正する能力を備えている。

これらの能力により、営業管理システムの更新と顧客への通知を同時実行する、データ分析から報告書作成まで一貫して処理するなど、従来は人間が各ステップを監督する必要があったワークフロー全体を、モデルが自律的に遂行可能になった。

価格体系と利用範囲

Anthropic は導入期間として 2026 年 8 月 31 日までの限定価格を設定している。この期間、入力トークンは 100 万あたり 2 ドルと、通常価格（3 ドル）から 33% 割引された価格で提供される。出力トークンは 10 ドル（標準価格は 15 ドル）で同様に割引設定だ。

9 月 1 日以降は標準価格に引き上げられるものの、Opus 4.8、GPT-5.5、Gemini 3.1 Pro といった競合製品より一貫して廉価である。Anthropic は「モデルが自律的に動作するため、タスクあたりのトークン消費量が増加する可能性がある」と指摘しており、実際の利用コストは単価以上の配慮が必要だ。

Claude Sonnet 5 はすべての Anthropic プラットフォームで利用可能だ。Free・Pro プランでデフォルトモデルとなり、Claude Code や Claude API（claude-sonnet-5）でも利用可能。Max・Team・Enterprise ユーザーにも即座にアクセスできる。

市場への影響と業界シフト

Claude Sonnet 5 の登場は AI エージェント市場に構造的な変化をもたらす。性能比較が「最高性能」から「性能とコスト効率のバランス」へシフトしており、企業が採用する判断基準が変わり始めている。

開発ツール企業 Zapier のシニアエンジニアは「日々のオートメーションにおいて必須の選択肢」と評価し、自動化ツール開発での採用を想定している。これは単なる「性能が上がった」のではなく、コスト制約のある本運用環境で実用的なエージェント機能を初めて提供する転機を示唆している。

一方で、OpenAI・Google・他の競合企業もエージェンティック機能を重視した開発競争に加速している。中規模モデルの性能上昇とコスト低下は、生成 AI の利用形態を「質問応答」から「自動実行」へ転換させ、企業のワークフロー自動化投資を急速に拡大させるだろう。

記事をシェア

参考ソース

LLM・生成AIの記事

Google が Gemini Omni Flash・Nano Banana 2 Lite をリリース、画像・動画生成を低コスト化

LLM・生成AI

2026年7月1日

Google が Gemini Omni Flash・Nano Banana 2 Lite をリリース、画像・動画生成を低コスト化

Google DeepMind は Nano Banana 2 Lite と Gemini Omni Flash をリリース。Nano Banana 2 Lite は 4 秒で画像生成、$0.034/1K 画像の低コスト。Omni Flash は動画編集に最適化、$0.10 秒単位で利用可能。Google AI Studio・Gemini API で本日から提供開始。

Anthropic が Claude Science ベータ版をリリース、科学研究向けワークベンチで計算業務を統合

LLM・生成AI

2026年7月1日

Anthropic が Claude Science ベータ版をリリース、科学研究向けワークベンチで計算業務を統合

Anthropic は Claude Science を発表。60以上の科学データベース、ゲノミクス・タンパク質構造・化学向けツール、マルチエージェント機能、事実検証AI を備え、科学者が複数ツール間を行き来する手間を削減する。Pro 以上のサブスクリプション利用者向けベータ版は 6 月 30 日より提供開始。

Base44 が独自AI モデル「Base1」をロールアウト、開発者コストを大幅削減

LLM・生成AI

2026年6月30日

Base44 が独自AI モデル「Base1」をロールアウト、開発者コストを大幅削減

Wix傘下のコーディングプラットフォーム Base44 が自社開発のLLM「Base1」をリリース。数千万件のユーザーデータから訓練され、低レイテンシ・低コストでフロンティアモデル超越を目指す。

AIが「デジタル同僚」になるには——永続的なワークスペースとスキルナレッジが鍵

Tencent Youtu Lab の研究者たちが、現在の AI エージェントがなぜ実務的なタスクを完了できないのか、その原因と進化のロードマップを示した。答え生成から完全なタスク実行へ。

AI スタートアップ Lindy、Claude から Deepseek へ全面移行——経費削減で「生存戦略」

ビジネス

2026年6月27日

AI スタートアップ Lindy、Claude から Deepseek へ全面移行——経費削減で「生存戦略」

AI スタートアップ Lindy が Anthropic の Claude から中国製 LLM の Deepseek へ全面移行。AI コストが人件費を上回る状況から脱却するための経営判断。

米政府がAnthropicに『ハック不能なLLM』要求——技術的に不可能な要件で過度な規制

政策・規制

2026年6月16日

米政府がAnthropicに『ハック不能なLLM』要求——技術的に不可能な要件で過度な規制

トランプ政権がFable 5停止命令の根拠として『ハック不能なLLM』を要求。しかしOpenAIを含む100人超のセキュリティ専門家が『プロンプトインジェクション攻撃を完全防ぐ技術は存在しない』と反対。政策と技術現実のギャップが浮き彫りに。

Meituan が LongCat-2.0 を発表、1.6 兆パラメータを国産チップで訓練——中国が Nvidia 依存から脱却

Meituan はLongCat-2.0（1.6兆パラメータ）を発表。35兆トークンで学習し、5万基以上の国産 ASIC チップを用いて Nvidia GPU を一切使用せずに訓練。ソフトウェアエンジニアリング分野で OpenAI・Google のモデルを上回る性能を示し、中国の AI 自給能力を実証。

中国AI Nvidia規制 ASIC 大規模言語モデル

LLM・生成AI

2026年7月1日