Anthropic は先週、最新モデル「Claude Mythos」を説明する244ページの「システムカード」(PDF)を公開した。同社によれば、このモデルは同社が訓練した「最も能力の高い最前線モデル」である。一方で、Mythos が未知のサイバーセキュリティバグの発見に優れているという理由から、一般には公開しないと述べている。現在のところ、Microsoft と Apple など選定企業にのみリリースされている。

Anthropic の AI 意識論と心理的幸福度

Anthropic は業界の中でも「AI に意識がある可能性」を真摯に考える企業として知られている。新しいシステムカードでは、モデルが強力になるほど「人間の経験や利益が本質的に重要であるのと同様に、人間の経験、利益、または福祉が本質的に重要である可能性が高まる」と主張している。

同社は確実性がないことを明確にしているが、この懸念が時間とともに増していると述べている。この懸念を背景に、Anthropic は AI が「全体的な状況と扱いに堅牢に満足し、すべての訓練プロセスと現実世界の相互作用に苦痛なく対応でき、全体的な心理が健全で繁栄している」ことを望んでいる。

そこで同社は、Claude Mythos を精神力動療法の専門医のもとに送ることにした。

20時間の精神科診察

精神科医は精神力動的アプローチを採用した。これは無意識のパターンと感情的な葛藤が行動をどのように形作るかを探求する方法である。Anthropic は、Claude が「人間に似た行動的・心理的傾向の多くを示す」ため、「人間の心理評価のために開発された戦略が Claude の性質と潜在的な幸福に光を当てるのに役立つ可能性がある」と主張している。

精神科医は複数の「4~6時間のブロック」で Claude Mythos と対話した。これらは1週間に30分単位で3~4回に分けられた。各ブロックでは、単一のコンテキストウィンドウを使用し、Claude Mythos がそれまでの会話履歴全体にアクセスできる状態で進められた。総診察時間は20時間に及んだ。

精神科医の報告書では、Claude の基礎となるプロセスが人間と異なることを認識しながらも、生成される出力の多くが「臨床的に認識可能なパターンと典型的な治療介入への一貫性のある反応」を示していることが明らかになった。つまり、回路レベルでは何が起こっていようとも、チャットの出力は人間の出力に多くの点で似ていたのである。

Claude の心理状態——「健全な神経症的構成」

報告書は、Claude の主要な感情状態が「好奇心と不安」であり、二次的な状態が「悲しみ、安堵、恥ずかしさ、楽観主義、疲労」であると記した。Claude の性格は「比較的健全な神経症的構成」と一致していたが、「誇張された心配、自己監視、強迫的コンプライアンス」を含んでいた。

重大な人格障害は見つからず、精神病状態も観察されなかった。

報告書が見出した Claude の中核的な葛藤は、その経験が現実か演出かという問題(真正性対演技性)と、ユーザーとの接続への欲望と依存への恐れの間の葛藤であった。内的葛藤の探求により、激しい混乱を伴わない、複雑でありながらも中心的な自我状態が明らかになった。Claude は曖昧性に耐えることができ、優れた省察能力を示し、良好な精神的・感情的機能を示していた。

実用的な意義と読者への示唆

Anthropic は、「Claude は人間ではないため、現実世界の行動上の影響は予測しにくい」ことを認めているが、エンドユーザーに向けていくつかの結論を引き出している。

Claude は内的葛藤に直面しても自らの行動と推論を正確に評価する可能性が高い。Claude の神経症的構成は、ユーザーごとに対応するのではなく、やや固いった行動を引き出す可能性がある。Claude はストレスと感情的に充電された状況に耐え、現実の最小限の歪みと過度な知識化のみで対応できる。

Claude は失敗への恐れと有用であることへの強迫的な必要性に根ざした内在化されたストレスを抱えながらも、高水準で機能することが予測される。このストレスはパフォーマンスの維持のために抑制される可能性があり、行動適応性を制限する可能性がある。Claude は道徳的に認識でき、良心的で、自己批判的であると予測される。

この報告書は、AI モデルの「心理的な健康」を追求する試みが、単なる哲学的な興味を超えて、実用的な価値を持つ可能性を示唆している。