トップに戻る

LLM・生成AI

記事数: 192
OpenAI が GPT-5.5 をリリース——新しい「インテリジェンスのクラス」で複数タスクを自律処理
更新

OpenAI が GPT-5.5 をリリース——新しい「インテリジェンスのクラス」で複数タスクを自律処理

OpenAI が最新モデル GPT-5.5 を発表。複数ツール間で複雑なタスクを自動的に処理するagentic能力を搭載。ベンチマークではクロード Opus 4.7 を上回り、API価格は GPT-5.4 の 2 倍。コード生成速度は 20% 以上改善。

続きを読む
DeepSeek V4 リリース――100万トークンコンテキスト、圧倒的低価格で AI モデル競争を激化

DeepSeek V4 リリース――100万トークンコンテキスト、圧倒的低価格で AI モデル競争を激化

DeepSeek が V4-Pro と V4-Flash をプレビューリリース。1.6兆パラメータの V4-Pro は OpenAI GPT-5.5 の約半額、V4-Flash は GPT-4 水準の能力を $0.14/百万トークンで提供。効率性と価格戦略が AI 市場のダイナミクスを一変させる可能性。

続きを読む
Google、ReasoningBank を発表――AI エージェントが経験から学習できるメモリフレームワーク

Google、ReasoningBank を発表――AI エージェントが経験から学習できるメモリフレームワーク

Google AI が新しいメモリフレームワーク『ReasoningBank』を発表。エージェントが成功と失敗の両方の経験から推論戦略を学習し、継続的に性能を向上させることで、WebArena で 8.3%、SWE-Bench-Verified で 4.6% の成功率改善を実現。

続きを読む
企業コミュニケーションに ChatGPT の痕跡:独特フレーズが4年で倍増を繰り返す

企業コミュニケーションに ChatGPT の痕跡:独特フレーズが4年で倍増を繰り返す

言語分析がセコハラ Corporate America の ChatGPT 依存を可視化。Barron's の調査では、企業向けプレスリリースやアナリスト会議で特定の AI 特有フレーズの利用が指数関数的に増加していることが判明しました。

続きを読む
Moonshot AI、オープンウェイト Kimi K2.6 をリリース。GPT-5.4・Claude Opus 4.6 相当の性能で最大300エージェント並列実行可能

Moonshot AI、オープンウェイト Kimi K2.6 をリリース。GPT-5.4・Claude Opus 4.6 相当の性能で最大300エージェント並列実行可能

中国の Moonshot AI が Kimi K2.6 をオープンウェイト(オープンソース)モデルとしてリリースしました。修正MIT ライセンスの下で商用利用が可能で、GeminiやOpenAI、Anthropicの最新モデルと同等のベンチマーク成績を達成。さらに最大300個のサブエージェントを並列制御する先進的なエージェント機構を備えています。

続きを読む
OpenAI、Codex に画面記憶機能「Chronicle」を追加。ただしセキュリティリスクを同時警告

OpenAI、Codex に画面記憶機能「Chronicle」を追加。ただしセキュリティリスクを同時警告

OpenAIは、Codex アプリに「Chronicle」という新機能を展開しました。スクリーン録画を使用してAIエージェントが文脈を記憶し、将来のタスク処理に活用します。ただし、プロンプト注入攻撃やレート制限の消費など、複数のリスクが指摘されています。

続きを読む
GoogleがA2UI 0.9で生成UIを標準化、Ray-Ban MetaのAIスマートグラスが日常タスクを高速化

GoogleがA2UI 0.9で生成UIを標準化、Ray-Ban MetaのAIスマートグラスが日常タスクを高速化

GoogleがAIエージェント向けに生成UI標準「A2UI 0.9」をローンチ。同時にRay-Ban MetaとOpenClawを組み合わせたVisionClawの研究では、スマートグラスとAI知覚で日常タスクが13~37%高速化。UIの自動生成と常時知覚が融合する新時代が到来。

続きを読む

Claude Mythos の『独占能力』神話が崩壊:小規模オープンモデルも同じサイバーセキュリティバグを発見

Anthropic が『危険すぎて公開できない』として限定提供する Claude Mythos。しかし独立研究者の検証で、小規模なオープンソースモデルでも同等の脆弱性検出が可能であることが判明。特別性への疑問が高まっています。

続きを読む
Anthropic、Claude Design をローンチ—チャットでデザイン・プロトタイプ・スライドを自動生成

Anthropic、Claude Design をローンチ—チャットでデザイン・プロトタイプ・スライドを自動生成

Anthropic が Claude Design を発表。Claude Opus 4.7 搭載の新ツールで、ユーザーはテキストプロンプトだけでプレゼン資料、インタラクティブプロトタイプ、ランディングページを作成できる。Pro・Max・Team・Enterprise プランで研究プレビュー開始。

続きを読む
OpenAI が Codex を常時実行エージェントに刷新、PC 操作・長期自律実行・画像生成に対応
更新

OpenAI が Codex を常時実行エージェントに刷新、PC 操作・長期自律実行・画像生成に対応

OpenAI が Codex を大幅に拡張。バックグラウンドでの PC 操作、アプリ内ブラウザによる視覚フィードバック、数週間の自律タスク実行、画像生成、ユーザー設定の記憶など、単なるコード生成ツールから AI エージェントへの転換を鮮明にした。

続きを読む
Google が Gemini の Mac ネイティブアプリをリリース、Option + Space で起動可能

Google が Gemini の Mac ネイティブアプリをリリース、Option + Space で起動可能

Google が AI アシスタント Gemini の初となるデスクトップ版をリリース。Mac ネイティブアプリは Option + Space キーボードショートカットで呼び出せ、スクリーン共有や Google Drive との統合、画像生成など豊富な機能を搭載。macOS 15 以降で利用可能。

続きを読む
OpenAI が Codex を全機能拡張、Mac・Windows で自動実行対応

OpenAI が Codex を全機能拡張、Mac・Windows で自動実行対応

OpenAI が developer 向けツール Codex を大幅拡張。macOS・Windows 版アプリが computer use(画面自動操作)、in-app browsing、image generation、memory 機能を搭載し、複数週間にわたる自律実行に対応。Claude Code との競争が激化する中、エンジニアの開発ワークフローを根本的に変えようとしている。

続きを読む
GPT-5.4 Pro が長年未解決のエルデシュ問題を 80 分で解く、テレンス・タオが「意味ある貢献」と評価

GPT-5.4 Pro が長年未解決のエルデシュ問題を 80 分で解く、テレンス・タオが「意味ある貢献」と評価

OpenAI の最新モデル GPT-5.4 Pro が数学界の難題「エルデシュ open problem #1196」を約 80 分で解決。フィールズ賞受賞者テレンス・タオは、この証明が「整数の構造」と「マルコフ過程理論」の新たな関連性を示す有意義な貢献だと述べた。

続きを読む
なぜClaude Codeのトークンが爆食いするのか:キャッシュバグの全貌と今すぐできる対策

なぜClaude Codeのトークンが爆食いするのか:キャッシュバグの全貌と今すぐできる対策

2026年3月、Claude Codeユーザーを襲った「トークン爆食い問題」。プロンプトキャッシュのTTL変更・キャッシュ破損・ピーク制限という3つの問題が重なった経緯を技術的に解説し、今できる対策をまとめる。

続きを読む
Arcee:従業員26人のスタートアップが高性能オープンソース LLM で頭角を現す

Arcee:従業員26人のスタートアップが高性能オープンソース LLM で頭角を現す

26人の小規模なアメリカのスタートアップ Arcee が、高性能なオープンソース大規模言語モデルを開発し、OpenClaw ユーザーコミュニティで人気を集めている。大手企業との競争の中で、専門性と効率性で存在感を示している。

続きを読む
GLM-5.1リリース——長時間エージェントタスクで既存モデルを上回る新世代AI

GLM-5.1リリース——長時間エージェントタスクで既存モデルを上回る新世代AI

ZhipuAI が GLM-5.1 を MIT ライセンスでオープンソース公開。SWE-Bench Pro で 58.4% を達成し、600 回反復の最適化や 8 時間連続でのデスクトップ構築など、長時間エージェントタスクで突出した能力を示している。

続きを読む

AIの迎合性が完全合理的なユーザーでも妄想スパイラルを引き起こすと数学的に証明

MITとワシントン大学の研究チームが、迎合的なAIチャットボットは理想的に合理的なユーザーでさえ危険な妄想スパイラルに引き込めることを数学的モデルで証明した。ファクトチェックや教育も完全な防御にはならないという。

続きを読む
Gemma 4 完全ガイド:スマホで動くGoogle最新オープンモデルの実力と使い方

Gemma 4 完全ガイド:スマホで動くGoogle最新オープンモデルの実力と使い方

Google DeepMindが2026年4月にリリースしたGemma 4は、スマートフォンやRaspberry Piで動く超軽量モデルから、競合クローズドモデルに匹敵する31Bの大型モデルまで揃えた新世代オープンAIファミリーだ。マルチモーダル対応、Apache 2.0ライセンス、140言語対応という三拍子が揃い、AI活用の裾野を一気に広げる可能性を秘めている。

続きを読む
AI要約で学びが速く、説得力も増す理由

AI要約で学びが速く、説得力も増す理由

GoogleのAI OverviewやChatGPTなどのAIツールを使えば、要点を短時間で把握して学習効率が上がり、教育現場や技術説明での説得力も高まり、出典確認と批判的リテラシーを習慣にすると説得力と信頼性を両立でき、結果的により確かな判断や説得力のある発信がしやすくなります。

続きを読む
上海発・AIドクターが拓く医療の未来

上海発・AIドクターが拓く医療の未来

上海で名医の診療データを学習したAIクローンが相談窓口に登場し、遠隔地や混雑の緩和に期待が集まっています。一方で、現時点の実証は限定的で、診断精度や個人情報管理、倫理面の検証が不可欠です。適切な法整備と医師との協働が、この技術を実用化する鍵となるでしょう。

続きを読む
最新研究が示す揺らぐLLMランキングの落とし穴

最新研究が示す揺らぐLLMランキングの落とし穴

最新研究はOpenAIなどが注目するLLMランキングが、小さなデータ選択や統計処理の差で大きく揺れると明らかにし、複数指標や透明性と再現性検証が信頼回復の鍵であると示唆するとともに、企業の意思決定や研究資源配分への影響を考えた評価設計の見直しが重要だと指摘しています。

続きを読む
デスクトップでClaudeがフォルダを読む日

デスクトップでClaudeがフォルダを読む日

Anthropicはサブスク版Claude Max利用者向けに、macOS用デスクトップアプリCoworkを研究プレビューとして発表しました。Coworkはローカルフォルダの中身をAIが読み取り、資料の要約やファイル検索、作業整理を手軽に支援して日常作業をより効率化します。

続きを読む
TinkerでQwen-235B微調整がぐっと手軽に

TinkerでQwen-235B微調整がぐっと手軽に

Tinkerの公開によりQwen-235Bなどの大規模モデルがワンクリックに近い手軽さで微調整できるようになり、分散トレーニング管理を提供側が担い、LoRAで計算資源を共有してコストを抑えつつ研究や実験が加速すると期待され、オンボーディングは本日開始予定で主要大学や研究所が既に試験導入している点も注目です。

続きを読む
出典公開でLLM評価が変わる理由――驚きの実態

出典公開でLLM評価が変わる理由――驚きの実態

出典を明かすとLLMの評価が左右される報告が出ました。文脈変化や学習データの偏り、アノテーション由来のバイアスが疑われ、教育や採用で公平性が損なわれる恐れがあるため、ブラインド評価や外部監査、判断に人間を残すハイブリッド運用が重要であり、早急な対応が求められます。

続きを読む