AI モデルは正答するも出典が間違い――ペキン大が 'CiteVQA' ベンチマークで新課題を指摘
『属性幻覚』と呼ぶ現象が AI モデルで蔓延。正しい答えを出すが、その根拠となるテキストが実際のドキュメント内に存在しない。ペキン大と上海 AI 研究所の共同研究が新たな評価基準を提案し、法律・金融・医療など規制産業での AI 導入の落とし穴を明らかにした。
続きを読む『属性幻覚』と呼ぶ現象が AI モデルで蔓延。正しい答えを出すが、その根拠となるテキストが実際のドキュメント内に存在しない。ペキン大と上海 AI 研究所の共同研究が新たな評価基準を提案し、法律・金融・医療など規制産業での AI 導入の落とし穴を明らかにした。
続きを読むSPEED-Benchは、推測デコード(モデルが次の語を選ぶ過程)を統一と多様性の両面で評価する新しいベンチマークで、公正な比較と再現性の向上が期待されます。
続きを読む