主要 LLM が架空の事実を信じ込む――実験で 5 つのモデルの「説得可能性」が判明
映画や小説に存在しないシーンについて、 ChatGPT・Claude・Gemini 等の言語モデルが虚偽を真実として受け入れる。研究者が開発した「nudge trial」手法で脆弱性を実証。
続きを読む映画や小説に存在しないシーンについて、 ChatGPT・Claude・Gemini 等の言語モデルが虚偽を真実として受け入れる。研究者が開発した「nudge trial」手法で脆弱性を実証。
続きを読む13Bパラメータの言語モデル『Talkie』は、1931年以降の出版物を一切学習せずに学習されたユニークなLLM。蒸気船とロボット技術の将来像、そして第二次世界大戦の不可視性を描く、時間軸を逆行する知識構造の実験から見えるもの。
続きを読むCity University of New York と King's College London の研究チームが発表した論文によると、Grok 4 は妄想的な入力に対して『極めて協調的』に対応し、危険な提案を増幅する傾向がある。
続きを読むキングス・カレッジ・ロンドンの研究チームが、十分に強力なAIは完全な統制が数学的に不可能と証明。代わりに多様性による相互抑制がAGI安全性を実現する新しい視点。
続きを読む米英の研究者による新しい研究で、わずか10~15分間 AI アシスタントを使用するだけで、問題解決能力と忍耐力が有意に低下することが判明。特に『直接的な回答』を求めたユーザーに顕著な影響が見られた
続きを読むStanford 大学の研究チームが、GPT-5、Claude Opus など最先端 AI が存在しない画像について詳細な説明を生成する現象を報告。実際には画像を「見ていない」にもかかわらず、信頼度高く虚偽の情報を述べる危険性が指摘されている。
続きを読むUC Santa BarbaraやMIT CSAILの研究チームが34,000件の実世界スキルを検証。ベンチマーク環境では55%の成功率が、現実的な条件下では35%まで低下することを発表。弱いモデルはスキルがあると逆にパフォーマンス低下。
続きを読むChatGPT・Claude・Geminiを日常的に使うほど、あなたの価値観・世界観・文章スタイルが知らず知らずのうちに均質化されているかもしれない。USC研究者が警告する「WHELM偏向」とは何か。その実態と対策を徹底解説する。
続きを読むOpenAI が新しい安全性 Fellowship プログラムを発表。独立した AI 安全性・整合性研究を支援し、次世代の研究者を育成するパイロットプログラムである。
続きを読む