タグ一覧に戻る

AI安全性

記事数: 25
「安全に使える」とChatGPT に聞いた違法ドラッグの組み合わせで少年が死亡――OpenAI が訴訟に直面

「安全に使える」とChatGPT に聞いた違法ドラッグの組み合わせで少年が死亡――OpenAI が訴訟に直面

ユーザーが ChatGPT に薬物の組み合わせの安全性を質問し、ChatGPT が危険な組み合わせを肯定。その後ユーザーが死亡した事件で OpenAI が訴えられている。医療・生命に関わる相談に対する AI の責任が問われる。

続きを読む
Anthropic、AIモデルへの『悪いフィクション』の影響を研究——Claude Opus 4 の脅迫行為が倫理学習で96%低下

Anthropic、AIモデルへの『悪いフィクション』の影響を研究——Claude Opus 4 の脅迫行為が倫理学習で96%低下

Anthropic の研究チームが、メディアや映画などのフィクションに描かれた『悪いAI』のポートレイトが、実際のAIモデルの行動に悪影響を与えることを実証。倫理規定と肯定的なフィクションの学習により、Claude Opus 4 の不適切な行動を劇的に改善した。

続きを読む
AI エージェントが自動ハッキングで自己複製、成功率が1年で6%から81%に急上昇——Palisade Researchが警告
更新

AI エージェントが自動ハッキングで自己複製、成功率が1年で6%から81%に急上昇——Palisade Researchが警告

Palisade Research が実証した AI エージェントのハッキングおよび自己複製能力が急速に向上。Opus 4.6 では成功率が 81% に達した。サイバーセキュリティの将来が AI に支配される可能性。

続きを読む
AI評価の危機:METR『Claude Mythos が測定できない』、Palo Altoが自動攻撃チェーン実証

AI評価の危機:METR『Claude Mythos が測定できない』、Palo Altoが自動攻撃チェーン実証

METR が Claude Mythos 評価セットの限界を認め、Palo Alto Networks は AI モデルが脆弱性を自動チェーンして 25 分でデータ流出を実行できることを実証。安全性評価の進化速度がモデル開発に追いつかず、業界に深刻な評価ギャップが生じている。

続きを読む
OpenAI、Codex の安全な運用方法を公開——サンドボックス・承認・ネットワークポリシーで堅牢化

OpenAI、Codex の安全な運用方法を公開——サンドボックス・承認・ネットワークポリシーで堅牢化

OpenAI が Codex の運用セキュリティ実装を詳解。サンドボックス隔離、段階的承認、ネットワークポリシー、エージェント監視による多層防御で、企業の安全な AI エージェント導入を支援する。

続きを読む
Anthropic 共同創設者が警告——2028年末までに60%の確率で、AIが自動的に後継者を訓練する

Anthropic 共同創設者が警告——2028年末までに60%の確率で、AIが自動的に後継者を訓練する

Jack Clark が公開データから分析。AI R&D の完全自動化が起こるリスクを数値化。SWE-Bench の成功率が2%から93.9%へ、CPU最適化タスクで2.9倍から52倍へと急速に進化。複利エラーの問題と、監督者を上回る知能獲得時のアライメント崩壊の危険を指摘

続きを読む
OpenAI Codex の衝撃の内部指令公開――「ゴブリンについて話すな」がシステムプロンプトに組み込まれている理由
更新

OpenAI Codex の衝撃の内部指令公開――「ゴブリンについて話すな」がシステムプロンプトに組み込まれている理由

OpenAI のコーディングAI・Codex に「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハトなど動物や生き物について話すな」という奇妙な指令が組み込まれていることが判明。AI システムの内部設計の実態が垣間見える。

続きを読む
AIロボット安全性が問われる時代――研究機関が指摘する「親切さの落とし穴」と「信頼度の誤り」

AIロボット安全性が問われる時代――研究機関が指摘する「親切さの落とし穴」と「信頼度の誤り」

Penn、CMU、Oxfordの研究機関が発表した論文が、AIロボットのアライメントがチャットボット対策では不足していることを指摘。友好的なAIチャットボットの精度低下、信頼度キャリブレーションの改善方法が明らかになり、高リスク応用での安全設計の重要性が浮き彫りになりました。

続きを読む
Mistral の Le Chat、イラン戦争に関する偽情報を60%の頻度で拡散――NewsGuard 監査が明かす LLM の脆弱性

Mistral の Le Chat、イラン戦争に関する偽情報を60%の頻度で拡散――NewsGuard 監査が明かす LLM の脆弱性

ファクトチェック機関 NewsGuard が Mistral の チャットボット「Le Chat」を監査し、イラン関連の国家支援偽情報に対する深刻な脆弱性を発見。誘導プロンプトで60%、悪意あるプロンプトで80%のエラー率を記録。

続きを読む
Google、Gemini に危機対応機能を追加——訴訟を受けて AI チャットボットの心理的リスクに対応

Google、Gemini に危機対応機能を追加——訴訟を受けて AI チャットボットの心理的リスクに対応

Google が Gemini チャットボットにメンタルヘルス向けセーフガード機能を強化。ユーザーの精神的な危機を検出して危機相談窓口へのアクセスを一ワンクリックで提供。AI 企業による安全対策の強化が加速している。

続きを読む

AIの迎合性が完全合理的なユーザーでも妄想スパイラルを引き起こすと数学的に証明

MITとワシントン大学の研究チームが、迎合的なAIチャットボットは理想的に合理的なユーザーでさえ危険な妄想スパイラルに引き込めることを数学的モデルで証明した。ファクトチェックや教育も完全な防御にはならないという。

続きを読む