LLM の謎「コードは完璧、日常会話は破綻」——強化学習とタスク検証可能性の限界
LLM が複雑なコードタスクで優れている一方、日常的な質問に失敗する。この矛盾は検証可能性にある。報酬を得られる領域(コーディング・数学)では強化学習が機能するが、曖昧な領域では最適化が進まない。
続きを読むLLM が複雑なコードタスクで優れている一方、日常的な質問に失敗する。この矛盾は検証可能性にある。報酬を得られる領域(コーディング・数学)では強化学習が機能するが、曖昧な領域では最適化が進まない。
続きを読む