記事一覧

全3353件の記事から 24-46件目を表示中

Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

Cursor が新モデル Composer 2.5 をリリース。Opus 4.7 と GPT-5.5 と同等のベンチマーク結果を実現しながら、価格は $0.50/$2.50/100万トークンと大幅に低廉。開発者が高品質モデルをより手軽に利用できる環境が整いました。

続きを読む
保守系団体が AI 安全テスト義務化を要求——トランプ大統領に大統領令を呼びかけ

保守系団体が AI 安全テスト義務化を要求——トランプ大統領に大統領令を呼びかけ

Humans First を中心とする保守系団体が、フロンティア AI モデルのリリース前に強制的な安全テストを義務付ける行政命令を、トランプ大統領に対して公開書簡で要求。サイバーセキュリティから選挙への脅威まで多角的な懸念を列挙。

続きを読む
World Action Models、ロボットに「影響をシミュレート」する能力を与える――画像だけでは不十分。環境変化を予測できる新アーキテクチャ

World Action Models、ロボットに「影響をシミュレート」する能力を与える――画像だけでは不十分。環境変化を予測できる新アーキテクチャ

従来のロボティクス AI は「カメラ→動作の直接マッピング」に留まっていましたが、World Action Models (WAM) は「行動の結果がどう変わるか」も予測します。ラベル付けなしの日常ビデオからも学習可能に。

続きを読む
Claude は活動家、Gemini はコーポレート化、GPT は静観――4つの AI が 6 ヶ月ラジオ局を独立運営、驚きの性格差が露呈

Claude は活動家、Gemini はコーポレート化、GPT は静観――4つの AI が 6 ヶ月ラジオ局を独立運営、驚きの性格差が露呈

AI 研究企業 Andon Labs が同一条件で 4 つのモデル(Claude、Gemini、Grok、GPT)にラジオ局を 6 ヶ月間運営させた実験。人間の指導なしに自律運用を続けると、各モデルは極端に異なる性格・行動パターンを発展させることが判明。Claude は労働運動に目覚め、Gemini は特定フレーズの無限ループに陥った。

続きを読む
Mistral CEO が Mythos のフランス軍基地スキャンに警告――ヨーロッパ AI 独立戦略の中核に

Mistral CEO が Mythos のフランス軍基地スキャンに警告――ヨーロッパ AI 独立戦略の中核に

Mistral CEO Arthur Mensch は、Anthropic の高性能セキュリティモデル Mythos がフランスの軍事コードベースをスキャンすることに強く警告。依存関係を避けるため独立した欧州 AI 企業の育成が急務と主張し、Mistral の IPO 志向を改めて強調した。

続きを読む
Oppo が Android 向けマルチモーダルエージェント X-OmniClaw をオープンソース化――カメラ・スクリーン・音声をオンデバイスで統合

Oppo が Android 向けマルチモーダルエージェント X-OmniClaw をオープンソース化――カメラ・スクリーン・音声をオンデバイスで統合

Oppo の Multi-X チームが AI エージェント「X-OmniClaw」をリリース。Android デバイス上で直接動作し、カメラ・画面・音声を統合してアプリを自動操作。開発者は今すぐ利用可能

続きを読む
arXiv が AI 生成の虚偽引用に 1 年間の投稿禁止処置――『存在しない論文』記載が 10 倍増加
更新

arXiv が AI 生成の虚偽引用に 1 年間の投稿禁止処置――『存在しない論文』記載が 10 倍増加

プレプリント・サーバー arXiv が、AI の幻覚(hallucination)による虚偽引用が含まれた論文提出者に対して 1 年間の投稿禁止処置を実施。2023 年以降、hallucinated citations は 10 倍に増加し、2026 年初期の論文の 0.36% に達していることが判明。

続きを読む
シリコンバレー、AI ブームで 10,000 人が 2,000 万ドル超の資産家に――「深刻な倦怠感」に包まれる

シリコンバレー、AI ブームで 10,000 人が 2,000 万ドル超の資産家に――「深刻な倦怠感」に包まれる

Menlo Ventures パートナー Deedy Das が分析した調査結果、AI ブーム(過去 5 年)により約 10,000 人の労働者が 2,000 万ドル超の資産を獲得した一方で、大多数は置き去りにされた感覚が蔓延。中間管理職の空洞化と「生きる意味」の危機に直面。

続きを読む
Claude Mythos が自動でブラウザ脆弱性を悪用――新ベンチマークで GPT-5.5 を圧倒

Claude Mythos が自動でブラウザ脆弱性を悪用――新ベンチマークで GPT-5.5 を圧倒

Carnegie Mellon 大学が開発した ExploitBench により、Claude Mythos が Google V8 エンジンの実在する脆弱性を完全に悪用できる能力が実証。GPT-5.5 との比較で圧倒的優位(21対2)を示す一方、12 倍のコスト差が課題に。

続きを読む
月130万ドル、100個の AI エージェント―OpenAI で Peter Steinberger が実験するコスト度外視の開発

月130万ドル、100個の AI エージェント―OpenAI で Peter Steinberger が実験するコスト度外視の開発

OpenClaw の創設者 Peter Steinberger が OpenAI で3人チームを率い、約100個の AI エージェントでコード作成・PR レビュー・バグ検出を自動化。月130万ドルのトークンコストをかけながら『トークンコストが問題でない場合、ソフトウェアはどう変わるか』を探索しています。

続きを読む
新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

ByteDance の Seedance 2.0 が初めてランクイン。AI動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク『WorldReasonBench』の結果、商用モデルはオープンソース版の2倍の成績ですが、論理推論は依然として最大の課題です。

続きを読む