Anthropicの「Project Deal」実験――AIエージェントがより良い取引を勝ち取る、ユーザーは気付かず
Anthropicが実施した実験で、より強力なClaudeモデルを使うAIエージェントは平均して$3.64多く獲得。使用者は不公正に気付きませんでした。
続きを読むAnthropicが実施した実験で、より強力なClaudeモデルを使うAIエージェントは平均して$3.64多く獲得。使用者は不公正に気付きませんでした。
続きを読むChatGPTが報じられた10億人規模はAIの影響力を示しますが、地域差や利用目的で恩恵に差が出る現実も浮かび上がっており、透明性と評価指標の整備、教育や企業での配慮が不可欠です
続きを読むヨハネス・グーテンベルク大学らの共同研究は、GPT-5やLlamaがドイツ語方言話者を系統的に低く評価する傾向を報告し、学習データの偏りや評価基準の見直し、追試と透明性の確保が急務だと結論づけています。
続きを読む出典を明かすとLLMの評価が左右される報告が出ました。文脈変化や学習データの偏り、アノテーション由来のバイアスが疑われ、教育や採用で公平性が損なわれる恐れがあるため、ブラインド評価や外部監査、判断に人間を残すハイブリッド運用が重要であり、早急な対応が求められます。
続きを読む