ChatGPTは人間を過大評価する?
HSE大学の実験で、ChatGPTとClaudeは人間の合理性をやや高く見積もる傾向があることが示されました。実務では対人データ検証や複数モデル比較でAIの出力を補完することが重要です。
AIは本当に人間の意思決定を読み切れるのか――最近の実験が、少し意外な答えを示しました。
研究の概要と驚きの結論
ロシアのHSE Universityの研究チームは、ChatGPTとClaudeを使って一連の意思決定実験を行いました。参加者は1年生の学部生から経験豊富な研究者まで幅広く集められています。結果は単純でした。AIは、人間の合理性を実際より高く見積もる傾向があったのです。
Keynesian beauty contestとは何か
Keynesian beauty contest(ケインズの美人コンテスト)は、他者の予想を読んで自分の答えを決めるゲームです。たとえば「みんなが何を選ぶか」を予想して、その予想に合わせる必要があります。直感だけでは勝てない、戦略的な思考を問う課題です。
AIの誤りはどこから来るのか
この実験では、AIが相手の推論レベルを高く仮定しすぎる傾向が見られました。簡単に言えば、AIは対戦相手を「最適に考える賢い相手」と想定してしまうことがあるのです。チェスで例えるなら、普段の相手をグランドマスターだと誤認するようなものです。
実務への影響と注意点
意思決定支援ツールとしてAIを導入する場面では、この過大評価が問題になります。現場で起きる不確実性や個人差を無視すると、提示された「最適解」が現実とズレる恐れがあります。実務者は次の点を意識してください。
- 対人データでの検証を行う。AIの出力を実際の人間行動と照合することが第一歩です。
- 複数モデルを比較し、出力のばらつきを確認する。アンサンブルや対照実験が有効です。
- 解釈性を高め、どんな前提で予測したかを明示する。仮定が結果に与える影響を説明できるようにします。
- ヒューマン・イン・ザ・ループを維持して、AIの判断を人がチェックする運用を組み込む。
改善に向けた方向性
研究は評価方法の見直しを促しています。具体的には、現実の意思決定をより正確に反映する評価指標やデータ収集方法の整備、透明性の向上が必要です。また、AIと人間の知識をどう統合するかが今後の重要課題になるでしょう。
最後に:AIは道具、万能ではない
AIは強力な道具です。しかし万能ではありません。出力をそのまま受け入れるのではなく、対人データでの検証や複数の視点での確認を習慣にしてください。そうすることで、AIと人間の協働はより安全で効果的になります。