AIが「デジタル同僚」になるには——永続的なワークスペースとスキルナレッジが鍵

2026年6月28日 22:13

💡

Tencent Youtu Lab の研究者たちが、現在の AI エージェントがなぜ実務的なタスクを完了できないのか、その原因と進化のロードマップを示した。答え生成から完全なタスク実行へ。

AI が「答え生成」から「実務的なタスク完全実行」へと進化するまで、まだ大きな溝が存在する。Tencent Youtu Lab と複数の中国大学の研究者たちが、その溝の本質を明らかにした。

現在の AI エージェントの根本的な限界

現在のチャットボット型 AI は、会話に応じて情報を生成する能力に優れている。しかし、実務的なタスク—— 複数のステップをこなし、ファイルを保存し、過去のコンテキストを参照しながら意思決定を重ねるようなタスク—— については、驚くほど無力だ。

OpenAI の GPT-4 を例に挙げると、WebArena というベンチマーク（実際の Web サイト操作をシミュレートしたタスク）では、わずか 14% のタスクしか完了できない。一方、単純なルール（例えば「最初に試したことをやり直さない」という指示）でさえ、多くの AI エージェントに匹敵する成績を上げる。これは何を意味するのか。答え生成の能力と、自律的なタスク遂行の能力は、全く異なるスキルセットだということだ。

5 段階進化モデル

Tencent の研究者たちは、AI が「真の同僚」へ進化するプロセスを 5 段階に分類した：

チャットボット段階 — 会話形式での応答のみ
思考型 LLM 段階 — より深い推論能力を持つが、外部環境との相互作用は限定的
エージェント段階 — ツール呼び出し機能を持つが、依然として単発のタスク対応
OpenClaw 時代 — より長期的なコンテキスト保持とマルチステップ実行
自己進化エコシステム — システム自体が学習し、改善されるステージ

現在の主流 AI は 2～3 段階に位置している。「同僚」レベルには、まだ 2 段階の進化が必要だということだ。

4 つのボトルネック

初期エージェントシステムが直面する課題は、以下にまとめられる：

1. 環境知覚の分断化

AI は、実行環境（ファイルシステム、ターミナル出力、ブラウザ状態）を統一的に認識できない。ファイルが保存されたことを知らなかったり、ターミナルの出力を誤解したりする。

2. ステートレスなツール呼び出し

現在のシステムは、ツール実行結果を「次のアクション」に活かす際、過去のステップを十分に記憶していない。前のステップで何をしたかを忘れて、同じ操作を繰り返すことも多い。

3. 予期しない動作への脆弱性

想定外の出力やエラーに直面すると、AI は対応を失う。人間なら「別のアプローチを試す」と考えるが、AI はそこで停止してしまう。

4. タスク未完了

最も深刻な課題だ。AI が生成した手順が完全でなく、タスクの途中で止まる。人間の同僚なら「まだ終わっていない」と認識して工夫するが、AI には「完了」と「未完了」の自己認識がない。

永続的なワークスペース + スキルナレッジ

研究者たちは、これらの課題を解決する鍵は、以下の 2 つの要素にあると指摘している：

永続的なワークスペース

ファイルやターミナルの状態が持続される環境。実行履歴が記録され、過去のアクションが参照可能な領域。AI がこの領域で作業を続ければ、人間と同じように「現在の状態」を認識できる。

再利用可能なスキルナレッジ

単発のツール呼び出しではなく、「複数のステップをこなす再利用可能なスキル」としてシステムが学習する。例えば「メール送信ワークフロー」や「ファイル整理タスク」といった組み立てられたスキルセットを、AI が蓄積・活用する能力だ。

Vercel による検証では、単に「使用可能なスキルのドキュメントを埋め込む」だけで、スキル無視率が 56% から 100% の成功率に改善した。つまり、正しい「ナレッジベース」があれば、現在の AI でも大幅な改善が可能だということだ。

ガバナンスと安全性の課題

永続的なワークスペースを導入すれば、当然ながら新たなリスクが生じる——認証情報漏洩、無権限アクセス、不適切なファイル削除。研究者たちは、以下のガバナンス要件を提示している：

スキルライフサイクル管理（どのスキルが、いつ、だれに許可されるのか）
ワークスペース衛生（定期的なログレビュー、不要ファイルの削除）
権限制御とサンドボックス化
実行結果のロールバック機構

これらは、AI エージェントが企業内で安全に動作するための必須条件だ。

同僚か、ツールか

「AI が同僚になるか」は、技術進化だけでは決まらない。永続的なワークスペース、スキルナレッジ、そして堅牢なガバナンスが揃ったとき、初めて「信頼できる同僚」として機能し始める。

現在の「答え生成 AI」から「タスク完全実行 AI」への転換は、既に始まっている。その道のりの全貌を示した Tencent の研究は、AI エージェント時代の次の段階を考える上で、重要な指針になるだろう。

記事をシェア

参考ソース

★ 注目 THE DECODER

テクノロジーの記事

Qihoo 360が Anthropic 製 Mythos に対抗、脆弱性発見・サイバー防御 AI を発表

テクノロジー

2026年6月28日

Qihoo 360が Anthropic 製 Mythos に対抗、脆弱性発見・サイバー防御 AI を発表

中国のサイバーセキュリティ企業・Qihoo 360 が Tu Long Feng（自動脆弱性発見）と Yi Tian Zhen（自動サイバー防御）という2つの AI ツールを発表。創業者・周宏毅は「サイバー核兵器」と位置付けるMythos への対抗姿勢を示す。中国モデルは西側比で20～30%劣後しつつ、エージェントベース戦略で追い上げへ。

テクノロジー

更新 2026年6月28日

テック起業家がんとの戦い：Claude が医学文献検索と誤診回避を支援

テック起業家 Connor Christou がが診断後、Blood検査結果・PET/MRI画像・ウェアラブルデータを Claude に入力し、医学文献から重要な知見を抽出。医師の意見と補完し、不必要な放射線治療を回避した事例から、AI の医療補助の可能性が見える。

MIT研究が示すAIデータセンターの電力シフト戦略——ピークオフ時間に20～50%移行でコスト5%削減も可能

テクノロジー

2026年6月27日

MIT研究が示すAIデータセンターの電力シフト戦略——ピークオフ時間に20～50%移行でコスト5%削減も可能

MIT研究チームが発表した新論文は、AIデータセンターの電力消費をピーク時間から非ピーク時間へ移行させることで、電力網のコスト削減と炭素排出削減の双方が達成可能であることを示しました。テキサス州では最大5%のコスト削減、CO₂は40%の削減も視野に入ります。

Google、開発者向けに最新AIモデル「Gemini 3」を公開　AI StudioとVertex AIでプレビュー提供開始

Googleが公開した最新AI「Gemini 3」は、1Mトークン長文理解とマルチモーダル、エージェント的自動コーディングを一体化した“開発者向けモンスターLLM”。AI Studioで無料試用し、そのままVertex AIで本番投入も可能です。既存LLMと何が違い、どんなアプリを一気に現実にできるのか、具体例とAPIの勘所を解説します。

Patronus AI、AI エージェント評価プラットフォームで $50M Series B 調達

スタートアップ

2026年6月26日

Patronus AI、AI エージェント評価プラットフォームで $50M Series B 調達

Meta AI 元研究員が設立した Patronus AI が $50M Series B を完了、累計資金は $70M に。「デジタルワールド」シミュレーション環境でエージェントをストレステストするプラットフォームの需要が旺盛だ。

LLM・生成AI

2026年6月23日

AIエージェントの「ループ化」が進行、継続的バックグラウンド操作の時代へ

AIエージェント技術が新しい段階に進み、人間の指示なしに複数のエージェントがバックグラウンドで無限に動作する「ループ化」が現実化。開発者が新しいワークフローを試験運用している。

Qihoo 360が Anthropic 製 Mythos に対抗、脆弱性発見・サイバー防御 AI を発表

AI セキュリティ中国AI Mythos 脆弱性検出 Qihoo 360

Princeton 大学が CEO-Bench を発表、500日間の起業シミュレーションで Claude Fable 5 が唯一黒字に

LLM・生成AI

2026年6月28日

Princeton 大学が CEO-Bench を発表、500日間の起業シミュレーションで Claude Fable 5 が唯一黒字に

Princeton 研究者が CEO-Bench という、AI エージェントに仮想企業を500日間経営させるテストを実施。100万ドルの初期資本から利益を生み出せたのは Claude Fable 5（4,715万ドル）、Claude Opus 4.8（2,780万ドル）、GPT-5.5（2,130万ドル）のみ。ルールベース AI すら多くのモデルに勝る結果に。

ベンチマーク CEO-Bench 意思決定 Claude 長期戦略

Sina の VibeThinker-3B が示唆：推論は圧縮可能、知識は圧縮不可

LLM・生成AI

2026年6月28日

Sina の VibeThinker-3B が示唆：推論は圧縮可能、知識は圧縮不可

Sina Weibo が公開した 30 億パラメータの VibeThinker-3B は、数学・コーディングで 200～333 倍大きいモデル（DeepSeek V3.2、Kimi K2.5）と互角のスコア。一方、事実知識の問題では大規模モデルに大きく劣後。研究から浮かぶのは、論理的推論は小型モデルに圧縮可能だが、事実知識は圧縮困難という知見。

小型言語モデル VibeThinker 推論ベンチマーク Qwen