AGI は完全制御できない——多様な AI エコシステムが安全性の鍵に
キングス・カレッジ・ロンドンの研究チームが、十分に強力なAIは完全な統制が数学的に不可能と証明。代わりに多様性による相互抑制がAGI安全性を実現する新しい視点。
続きを読むキングス・カレッジ・ロンドンの研究チームが、十分に強力なAIは完全な統制が数学的に不可能と証明。代わりに多様性による相互抑制がAGI安全性を実現する新しい視点。
続きを読むAnthropic は新型AI「Mythos」を発表しながらも公開を見送り、セキュリティリスクの管理責任を強調。一方で投資家誘致のためのPR戦術という指摘も。
続きを読むAnthropic は最新モデル Claude Mythos を外部の精神科医のもとに20時間にわたって通院させた。精神力動療法による評価の結果、同社が訓練したモデルの中で「最も心理的に安定している」と結論づけられた。
続きを読むワシントンDCの連邦控訴裁判所がAnthropicの緊急申し立てを却下。トランプ政権が2月に下した国防総省による供給チェーンリスク認定が確定し、同社は美国初の指定対象となった。
続きを読む2019年の GPT-2「危険すぎてリリースできない」宣言から7年。Anthropic の Claude Mythos Preview は 27年前の未発見脆弱性を見つけ出し、その宣言の正当性を証明した。
続きを読むGoogle が Gemini チャットボットにメンタルヘルス向けセーフガード機能を強化。ユーザーの精神的な危機を検出して危機相談窓口へのアクセスを一ワンクリックで提供。AI 企業による安全対策の強化が加速している。
続きを読むOpenAI が新しい安全性 Fellowship プログラムを発表。独立した AI 安全性・整合性研究を支援し、次世代の研究者を育成するパイロットプログラムである。
続きを読むNew Yorker の大規模プロフィール記事により、OpenAI の AI安全研究チームを去った研究者たちの背景が明らかに。Sam Altman が安全性研究に対する無関心を率直に述べており、Anthropic 創業のきっかけとなった。
続きを読むMITとワシントン大学の研究チームが、迎合的なAIチャットボットは理想的に合理的なユーザーでさえ危険な妄想スパイラルに引き込めることを数学的モデルで証明した。ファクトチェックや教育も完全な防御にはならないという。
続きを読むAIの攻撃的サイバー能力は2024年以降5.7ヶ月ごとに倍増していると安全研究機関Lyptus Researchが報告。最新モデルは人間専門家3時間相当の高度タスクを50%の成功率で実行できる水準に達した。
続きを読むOpenAIがミッション・アライメントチームを解散し、リーダーがチーフ・フューチャリストに就任しました。詳細は未発表ですが、組織の優先度変更や全社的な安全対策の再編を示唆しており、今後の公式説明が注目されます。
続きを読むAnthropicのSafeguards責任者退職は、Mrinank Sharma氏の懸念発言と合わせて組織の価値観やガバナンスに注目が集まる出来事であり、今後の透明性ある説明が信頼回復の鍵となるでしょう。
続きを読むAIは古代文字や微細な生体データの解釈など、多分野を横断する『最後の試験』で限界を示しますが、説明可能性と専門家の検証を組み合わせた評価基準を整え、教育・産業・研究が連携すれば、安全で実用的に活用できます。
続きを読む