NextAI 海外で話題の最新AIニュース

タグ一覧に戻る

評価ベンチマーク

記事数: 2 件

AI モデルは正答するも出典が間違い――ペキン大が 'CiteVQA' ベンチマークで新課題を指摘

2026年5月25日

AI モデルは正答するも出典が間違い――ペキン大が 'CiteVQA' ベンチマークで新課題を指摘

『属性幻覚』と呼ぶ現象が AI モデルで蔓延。正しい答えを出すが、その根拠となるテキストが実際のドキュメント内に存在しない。ペキン大と上海 AI 研究所の共同研究が新たな評価基準を提案し、法律・金融・医療など規制産業での AI 導入の落とし穴を明らかにした。

AI安全性評価ベンチマーク事実検証規制産業

続きを読む

SPEED-Benchが示す推測デコードの新基準

2026年3月20日

SPEED-Benchが示す推測デコードの新基準

SPEED-Benchは、推測デコード（モデルが次の語を選ぶ過程）を統一と多様性の両面で評価する新しいベンチマークで、公正な比較と再現性の向上が期待されます。

SPEEDBench 推測デコード LLM 評価ベンチマーク

続きを読む