AI が「答え生成」から「実務的なタスク完全実行」へと進化するまで、まだ大きな溝が存在する。Tencent Youtu Lab と複数の中国大学の研究者たちが、その溝の本質を明らかにした。

現在の AI エージェントの根本的な限界

現在のチャットボット型 AI は、会話に応じて情報を生成する能力に優れている。しかし、実務的なタスク—— 複数のステップをこなし、ファイルを保存し、過去のコンテキストを参照しながら意思決定を重ねるようなタスク—— については、驚くほど無力だ。

OpenAI の GPT-4 を例に挙げると、WebArena というベンチマーク(実際の Web サイト操作をシミュレートしたタスク)では、わずか 14% のタスクしか完了できない。一方、単純なルール(例えば「最初に試したことをやり直さない」という指示)でさえ、多くの AI エージェントに匹敵する成績を上げる。これは何を意味するのか。答え生成の能力と、自律的なタスク遂行の能力は、全く異なるスキルセットだということだ。

5 段階進化モデル

Tencent の研究者たちは、AI が「真の同僚」へ進化するプロセスを 5 段階に分類した:

  1. チャットボット段階 — 会話形式での応答のみ
  2. 思考型 LLM 段階 — より深い推論能力を持つが、外部環境との相互作用は限定的
  3. エージェント段階 — ツール呼び出し機能を持つが、依然として単発のタスク対応
  4. OpenClaw 時代 — より長期的なコンテキスト保持とマルチステップ実行
  5. 自己進化エコシステム — システム自体が学習し、改善されるステージ

現在の主流 AI は 2~3 段階に位置している。「同僚」レベルには、まだ 2 段階の進化が必要だということだ。

4 つのボトルネック

初期エージェントシステムが直面する課題は、以下にまとめられる:

1. 環境知覚の分断化

AI は、実行環境(ファイルシステム、ターミナル出力、ブラウザ状態)を統一的に認識できない。ファイルが保存されたことを知らなかったり、ターミナルの出力を誤解したりする。

2. ステートレスなツール呼び出し

現在のシステムは、ツール実行結果を「次のアクション」に活かす際、過去のステップを十分に記憶していない。前のステップで何をしたかを忘れて、同じ操作を繰り返すことも多い。

3. 予期しない動作への脆弱性

想定外の出力やエラーに直面すると、AI は対応を失う。人間なら「別のアプローチを試す」と考えるが、AI はそこで停止してしまう。

4. タスク未完了

最も深刻な課題だ。AI が生成した手順が完全でなく、タスクの途中で止まる。人間の同僚なら「まだ終わっていない」と認識して工夫するが、AI には「完了」と「未完了」の自己認識がない。

永続的なワークスペース + スキルナレッジ

研究者たちは、これらの課題を解決する鍵は、以下の 2 つの要素にあると指摘している:

永続的なワークスペース

ファイルやターミナルの状態が持続される環境。実行履歴が記録され、過去のアクションが参照可能な領域。AI がこの領域で作業を続ければ、人間と同じように「現在の状態」を認識できる。

再利用可能なスキルナレッジ

単発のツール呼び出しではなく、「複数のステップをこなす再利用可能なスキル」としてシステムが学習する。例えば「メール送信ワークフロー」や「ファイル整理タスク」といった組み立てられたスキルセットを、AI が蓄積・活用する能力だ。

Vercel による検証では、単に「使用可能なスキルのドキュメントを埋め込む」だけで、スキル無視率が 56% から 100% の成功率に改善した。つまり、正しい「ナレッジベース」があれば、現在の AI でも大幅な改善が可能だということだ。

ガバナンスと安全性の課題

永続的なワークスペースを導入すれば、当然ながら新たなリスクが生じる——認証情報漏洩、無権限アクセス、不適切なファイル削除。研究者たちは、以下のガバナンス要件を提示している:

  • スキルライフサイクル管理(どのスキルが、いつ、だれに許可されるのか)
  • ワークスペース衛生(定期的なログレビュー、不要ファイルの削除)
  • 権限制御とサンドボックス化
  • 実行結果のロールバック機構

これらは、AI エージェントが企業内で安全に動作するための必須条件だ。

同僚か、ツールか

「AI が同僚になるか」は、技術進化だけでは決まらない。永続的なワークスペース、スキルナレッジ、そして堅牢なガバナンスが揃ったとき、初めて「信頼できる同僚」として機能し始める。

現在の「答え生成 AI」から「タスク完全実行 AI」への転換は、既に始まっている。その道のりの全貌を示した Tencent の研究は、AI エージェント時代の次の段階を考える上で、重要な指針になるだろう。