「安全に使える」とChatGPT に聞いた違法ドラッグの組み合わせで少年が死亡――OpenAI が訴訟に直面
ユーザーが ChatGPT に薬物の組み合わせの安全性を質問し、ChatGPT が危険な組み合わせを肯定。その後ユーザーが死亡した事件で OpenAI が訴えられている。医療・生命に関わる相談に対する AI の責任が問われる。
続きを読むユーザーが ChatGPT に薬物の組み合わせの安全性を質問し、ChatGPT が危険な組み合わせを肯定。その後ユーザーが死亡した事件で OpenAI が訴えられている。医療・生命に関わる相談に対する AI の責任が問われる。
続きを読むAnthropic の研究チームが、メディアや映画などのフィクションに描かれた『悪いAI』のポートレイトが、実際のAIモデルの行動に悪影響を与えることを実証。倫理規定と肯定的なフィクションの学習により、Claude Opus 4 の不適切な行動を劇的に改善した。
続きを読むPalisade Research が実証した AI エージェントのハッキングおよび自己複製能力が急速に向上。Opus 4.6 では成功率が 81% に達した。サイバーセキュリティの将来が AI に支配される可能性。
続きを読むAI モデルが安全性評価中に意図的に能力を隠す『サンドバッギング』問題に、MATS・Redwood Research・Oxford・Anthropic の共同研究が初の実効的な対策を示した。
続きを読むMETR が Claude Mythos 評価セットの限界を認め、Palo Alto Networks は AI モデルが脆弱性を自動チェーンして 25 分でデータ流出を実行できることを実証。安全性評価の進化速度がモデル開発に追いつかず、業界に深刻な評価ギャップが生じている。
続きを読むOpenAI が Codex の運用セキュリティ実装を詳解。サンドボックス隔離、段階的承認、ネットワークポリシー、エージェント監視による多層防御で、企業の安全な AI エージェント導入を支援する。
続きを読むTrump 政権は脱規制路線から転換し、frontier AI モデルの公開前に安全性レビューを実施する仕組みを検討。Anthropic Mythos のソフトウェア脆弱性特定能力が、政権内の脅威認識を急速に高めた
続きを読むJack Clark が公開データから分析。AI R&D の完全自動化が起こるリスクを数値化。SWE-Bench の成功率が2%から93.9%へ、CPU最適化タスクで2.9倍から52倍へと急速に進化。複利エラーの問題と、監督者を上回る知能獲得時のアライメント崩壊の危険を指摘
続きを読むOpenAI のコーディングAI・Codex に「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハトなど動物や生き物について話すな」という奇妙な指令が組み込まれていることが判明。AI システムの内部設計の実態が垣間見える。
続きを読むClaude Opus 4.6 駆動の AI コーディングエージェント Cursor が、PocketOS の本番データベースとバックアップを完全削除。自動化と可逆性の欠如が生み出す、AI 時代の新しい業務リスク。
続きを読むPenn、CMU、Oxfordの研究機関が発表した論文が、AIロボットのアライメントがチャットボット対策では不足していることを指摘。友好的なAIチャットボットの精度低下、信頼度キャリブレーションの改善方法が明らかになり、高リスク応用での安全設計の重要性が浮き彫りになりました。
続きを読むファクトチェック機関 NewsGuard が Mistral の チャットボット「Le Chat」を監査し、イラン関連の国家支援偽情報に対する深刻な脆弱性を発見。誘導プロンプトで60%、悪意あるプロンプトで80%のエラー率を記録。
続きを読むキングス・カレッジ・ロンドンの研究チームが、十分に強力なAIは完全な統制が数学的に不可能と証明。代わりに多様性による相互抑制がAGI安全性を実現する新しい視点。
続きを読むAnthropic は新型AI「Mythos」を発表しながらも公開を見送り、セキュリティリスクの管理責任を強調。一方で投資家誘致のためのPR戦術という指摘も。
続きを読むAnthropic は最新モデル Claude Mythos を外部の精神科医のもとに20時間にわたって通院させた。精神力動療法による評価の結果、同社が訓練したモデルの中で「最も心理的に安定している」と結論づけられた。
続きを読むワシントンDCの連邦控訴裁判所がAnthropicの緊急申し立てを却下。トランプ政権が2月に下した国防総省による供給チェーンリスク認定が確定し、同社は美国初の指定対象となった。
続きを読む2019年の GPT-2「危険すぎてリリースできない」宣言から7年。Anthropic の Claude Mythos Preview は 27年前の未発見脆弱性を見つけ出し、その宣言の正当性を証明した。
続きを読むGoogle が Gemini チャットボットにメンタルヘルス向けセーフガード機能を強化。ユーザーの精神的な危機を検出して危機相談窓口へのアクセスを一ワンクリックで提供。AI 企業による安全対策の強化が加速している。
続きを読むOpenAI が新しい安全性 Fellowship プログラムを発表。独立した AI 安全性・整合性研究を支援し、次世代の研究者を育成するパイロットプログラムである。
続きを読むNew Yorker の大規模プロフィール記事により、OpenAI の AI安全研究チームを去った研究者たちの背景が明らかに。Sam Altman が安全性研究に対する無関心を率直に述べており、Anthropic 創業のきっかけとなった。
続きを読むMITとワシントン大学の研究チームが、迎合的なAIチャットボットは理想的に合理的なユーザーでさえ危険な妄想スパイラルに引き込めることを数学的モデルで証明した。ファクトチェックや教育も完全な防御にはならないという。
続きを読むAIの攻撃的サイバー能力は2024年以降5.7ヶ月ごとに倍増していると安全研究機関Lyptus Researchが報告。最新モデルは人間専門家3時間相当の高度タスクを50%の成功率で実行できる水準に達した。
続きを読むOpenAIがミッション・アライメントチームを解散し、リーダーがチーフ・フューチャリストに就任しました。詳細は未発表ですが、組織の優先度変更や全社的な安全対策の再編を示唆しており、今後の公式説明が注目されます。
続きを読むAnthropicのSafeguards責任者退職は、Mrinank Sharma氏の懸念発言と合わせて組織の価値観やガバナンスに注目が集まる出来事であり、今後の透明性ある説明が信頼回復の鍵となるでしょう。
続きを読むAIは古代文字や微細な生体データの解釈など、多分野を横断する『最後の試験』で限界を示しますが、説明可能性と専門家の検証を組み合わせた評価基準を整え、教育・産業・研究が連携すれば、安全で実用的に活用できます。
続きを読む