NextAI 海外で話題の最新AIニュース

タグ一覧に戻る

LLM

記事数: 75 件

Claude Sonnet 5 完全活用ガイド——エージェントAIで仕事を自動化する実践的な使い方

2026年7月4日

Claude Sonnet 5 完全活用ガイド——エージェントAIで仕事を自動化する実践的な使い方

Anthropicが6月30日にリリースした「Claude Sonnet 5」は、ブラウザやターミナルを自律操作し、複数ステップの業務フローを完走できる「エージェント特化モデル」だ。Opus 4.8に迫る性能をFreeプランから試せる本モデルの実践的な使い方と、今日から始められる5つのユースケースを徹底解説する。

Claude Sonnet 5 Anthropic AIエージェント AI活用術自動化

続きを読む

Bridgewater の金融テストで開放モデルが GPT・Claude に勝利——コスト数分の一

テクノロジー

2026年7月3日

Bridgewater の金融テストで開放モデルが GPT・Claude に勝利——コスト数分の一

ヘッジファンド Bridgewater と Thinking Machines Lab による金融ドキュメント評価テストで、fine-tuned なオープンウェイト（開放重み付け）モデルが OpenAI の GPT と Anthropic の Claude に勝利。数分の一のコストで同等以上のパフォーマンスを実現。

Claude GPT LLM AI 金融

続きを読む

Anthropic が Claude Sonnet 5 をリリース、エージェンティック機能で Opus と同等性能を低価格実現

更新 2026年7月1日

Anthropic が Claude Sonnet 5 をリリース、エージェンティック機能で Opus と同等性能を低価格実現

Anthropic は Claude Sonnet 5 をリリース。前モデル Sonnet 4.6 から大幅に向上し、Opus 4.8 と同等の性能を実現。複雑なツール利用・推論・コード作成に対応。導入期間は入力 $2/M トークンという破格の価格設定。

Claude Sonnet 5 Anthropic エージェント LLM

続きを読む

OpenAI が GPT-5.6 Pro を 3 つのバリアントで展開へ――Luna Pro・Terra Pro・Sol Pro で戦略転換

2026年7月1日

OpenAI が GPT-5.6 Pro を 3 つのバリアントで展開へ――Luna Pro・Terra Pro・Sol Pro で戦略転換

OpenAI のベンチマーク論文から、GPT-5.6 の Pro ティアが単一モデルではなく、速度・容量・推論の 3 バリアントで提供される方針が明らかに。ChatGPT Pro 以来初の差別化戦略。

GPT-5.6 OpenAI ChatGPT Pro LLM pricing strategy

続きを読む

AI推論コスト削減の時代へ——企業が複数モデルで品質を維持

更新 2026年7月1日

AI推論コスト削減の時代へ——企業が複数モデルで品質を維持

AI利用企業がコスト圧力に直面する中、複数のモデルを戦略的に使い分ける手法が主流化。Harvey の 3 倍コスト削減事例から見える、AI インフラのコスト最適化戦略。

AI コスト最適化推論 LLM 企業導入

続きを読む

Base44 が独自AI モデル「Base1」をロールアウト、開発者コストを大幅削減

2026年6月30日

Base44 が独自AI モデル「Base1」をロールアウト、開発者コストを大幅削減

Wix傘下のコーディングプラットフォーム Base44 が自社開発のLLM「Base1」をリリース。数千万件のユーザーデータから訓練され、低レイテンシ・低コストでフロンティアモデル超越を目指す。

Base44 AI model LLM コーディング Wix

続きを読む

AIが「デジタル同僚」になるには——永続的なワークスペースとスキルナレッジが鍵

テクノロジー

2026年6月28日

AIが「デジタル同僚」になるには——永続的なワークスペースとスキルナレッジが鍵

Tencent Youtu Lab の研究者たちが、現在の AI エージェントがなぜ実務的なタスクを完了できないのか、その原因と進化のロードマップを示した。答え生成から完全なタスク実行へ。

AI エージェント LLM Tencent 研究

続きを読む

ByteDance開発の拡散言語モデル「iLLaDA」がQwen2.5と同等レベルを実現——自己回帰型との性能競争始まる

2026年6月27日

ByteDance開発の拡散言語モデル「iLLaDA」がQwen2.5と同等レベルを実現——自己回帰型との性能競争始まる

人民大学とByteDanceの研究者が開発した拡散型言語モデル「iLLaDA」がQwen2.5 7Bと同等のベンチマーク性能を達成。12兆トークンで一から学習した新モデルが、従来の自己回帰型との競争の可能性を示唆します。

ByteDance 拡散言語モデル iLLaDA LLM 言語モデル

続きを読む

GPT-5.6 Sol 完全ガイド: Sol、Terra、Luna の3階層モデルを徹底解説

2026年6月27日

GPT-5.6 Sol 完全ガイド: Sol、Terra、Luna の3階層モデルを徹底解説

OpenAI が発表した GPT-5.6 は、フラグシップの Sol、バランス型の Terra、コスト重視の Luna という3階層構成を採用。Max モードや Ultra モードの新機能、Claude Mythos 5 との性能比較、価格設定まで、開発者が知るべきすべてを解説する。

OpenAI GPT-5.6 Sol LLM Claude Mythos

続きを読む

AI スタートアップ Lindy、Claude から Deepseek へ全面移行——経費削減で「生存戦略」

2026年6月27日

AI スタートアップ Lindy、Claude から Deepseek へ全面移行——経費削減で「生存戦略」

AI スタートアップ Lindy が Anthropic の Claude から中国製 LLM の Deepseek へ全面移行。AI コストが人件費を上回る状況から脱却するための経営判断。

Anthropic Claude Deepseek スタートアップ AI コスト

続きを読む

Sam Altman が『スケーリング批評家は間違っている』と講演——OpenAI が数学的予想を反証

2026年6月22日

Sam Altman が『スケーリング批評家は間違っている』と講演——OpenAI が数学的予想を反証

OpenAI CEO が Stanford で講演。AIのスケーリング継続を強調し、懐疑論者を反論。OpenAI が難しい数学的予想を反証した事例を根拠として挙げ、スケーリング重視アプローチが業界の主流であることを示した。

OpenAI Sam Altman スケーリング LLM Stanford

続きを読む

Microsoft Copilot に重大な脆弱性――SearchLeak 攻撃で 2FA コード盗聴可能

セキュリティ

2026年6月17日

Microsoft Copilot に重大な脆弱性――SearchLeak 攻撃で 2FA コード盗聴可能

LLM ベースの Copilot で、SearchLeak と呼ばれる巧妙な攻撃により、ユーザーの 2 段階認証コードが盗聴される可能性が発見されました。業界の LLM セキュリティアプローチの根本的な問題が浮き彫りに。

Copilot 脆弱性セキュリティ LLM 2FA

続きを読む

米政府がAnthropicに『ハック不能なLLM』要求——技術的に不可能な要件で過度な規制

政策・規制

2026年6月16日

米政府がAnthropicに『ハック不能なLLM』要求——技術的に不可能な要件で過度な規制

トランプ政権がFable 5停止命令の根拠として『ハック不能なLLM』を要求。しかしOpenAIを含む100人超のセキュリティ専門家が『プロンプトインジェクション攻撃を完全防ぐ技術は存在しない』と反対。政策と技術現実のギャップが浮き彫りに。

Anthropic Claude 政府規制サイバーセキュリティ LLM

続きを読む

Meta が「tokenmaxxing」から「token managing」へ転換、AI Gateway でコスト統制

2026年6月13日

Meta が「tokenmaxxing」から「token managing」へ転換、AI Gateway でコスト統制

Meta が 6,000 人の従業員向けに内部メモで AI コスト管理方針を転換。数十億ドルに達した AI 内部使用コストを統制するため、2027 年から「AI Gateway」ダッシュボードでトークン消費を厳格に管理。

Meta AI コスト管理トークン LLM

続きを読む

Anthropic Claude Fable 5 を公開、Mythos クラスを開発者向けに提供

更新 2026年6月11日

Anthropic Claude Fable 5 を公開、Mythos クラスを開発者向けに提供

Anthropic が最強モデル Claude Mythos をベースとした公開版 Fable 5 をリリース。セキュリティテスト済み、6月22日まで Pro/Max で無料利用可能。

Anthropic Claude LLM AI モデル Mythos

続きを読む

トークン経済が企業の『正念場』に——GitHub Copilot 課金転換、企業74%が支出把握できず

2026年6月9日

トークン経済が企業の『正念場』に——GitHub Copilot 課金転換、企業74%が支出把握できず

Agentic AI の登場で企業向けモデルの課金が月額固定制からトークンベース課金へ転換。ところが企業の74%は AI 支出を完全に把握できていない。これが業界全体の採算性危機を招きかねないと、実務家が指摘している。

AI LLM トークン経済企業

続きを読む

Agentic AI が Token 経済を変える——固定料金から従量制へ

2026年6月9日

Agentic AI が Token 経済を変える——固定料金から従量制へ

月額制から脱却する LLM 企業。自律的に動作する Agentic AI は膨大な Token を消費し、単純な Token 課金では採算が取れない。課金モデルの根本的転換と、企業が直面する『Tokenmaxxing』のリスク。

Agentic AI Token経済課金モデル LLM

続きを読む

Claude Opus 4.8 完全ガイド：誠実性4倍向上、並列エージェント、エフォートコントロールの使い方

2026年6月6日

Claude Opus 4.8 完全ガイド：誠実性4倍向上、並列エージェント、エフォートコントロールの使い方

Anthropic が 2026 年 5 月にリリースした Claude Opus 4.8 は、嘘・でたらめが前バージョン比で約4倍減少した高誠実モデルだ。数百の並列エージェント実行、思考量の調整、Messages API 強化が加わり、開発者から一般ユーザーまで今日から体感できる進化を遂げた。

Claude Anthropic Claude Opus 4.8 AIエージェント Claude Code

続きを読む

AI が人間の投資家を上回る、ベンチャー予測トーナメントで4/5の精度を実現

2026年5月27日

AI が人間の投資家を上回る、ベンチャー予測トーナメントで4/5の精度を実現

University of Michigan の研究で、Gemini 2.5 Pro が MBA 卒業生と投資家 3 名よりも正確にテック企業の成功を予測。戦略的先見性は人間固有の能力ではなくなった。

AI 予測ベンチャー投資 LLM

続きを読む

George Hotz がAIコーディングエージェントを「最も高くつく過ち」と警告――6ヶ月検証で判明したLLMの本質的限界

テクノロジー

2026年5月25日

George Hotz がAIコーディングエージェントを「最も高くつく過ち」と警告――6ヶ月検証で判明したLLMの本質的限界

Comma2 創業者が実装検証結果を公開。LLMは統計的パターン模倣で、細部の論理破綻は検出困難。テスト結果をコメントアウトするなど、表面的な正確さに隠れた危険性を指摘。

AI開発コーディングエージェント LLM ソフトウェア品質 George Hotz

続きを読む

Cohere、最高性能の言語モデル Command A+ をオープンソース公開——218 億パラメータ、48言語対応

2026年5月22日

Cohere、最高性能の言語モデル Command A+ をオープンソース公開——218 億パラメータ、48言語対応

カナダの AI 企業 Cohere が、同社最強の言語モデル Command A+ を Apache 2.0 ライセンスでオープンソース化。218 億パラメータの Mixture of Experts モデル、マルチモーダル対応、128K トークンのコンテキスト、Hugging Face で即座に利用可能。開発者に新たな選択肢。

Cohere オープンソース言語モデル Command A+ Mixture of Experts

続きを読む

Andrej Karpathy が Anthropic に参画——LLM プレトレーニング研究を主導

2026年5月20日

Andrej Karpathy が Anthropic に参画——LLM プレトレーニング研究を主導

OpenAI の共同創設者で Tesla の自動運転を率いた Andrej Karpathy が、Anthropic のプレトレーニング研究チームに参画を発表。一流研究者の引き抜きは AI 企業間の競争激化を物語る。

Andrej Karpathy Anthropic OpenAI LLM プレトレーニング

続きを読む

AI 訓練の「メモリ壁」を Ethernet ベースの拡張技術で突破、韓国 ETRI が OmniXtend 開発

テクノロジー

2026年5月19日

AI 訓練の「メモリ壁」を Ethernet ベースの拡張技術で突破、韓国 ETRI が OmniXtend 開発

大規模 AI 訓練を阻害する「メモリ壁」問題を解決する技術が登場。韓国の電子通信研究院（ETRI）が開発した OmniXtend は、Ethernet をメモリ相互接続ファブリックとして活用し、分散デバイス間でのメモリ共有を実現。LLM 推論性能を 2 倍以上改善します。

LLM AI基盤技術メモリ拡張データセンターインフラストラクチャ

続きを読む

セキュリティ

2026年5月19日

主要 LLM が架空の事実を信じ込む――実験で 5 つのモデルの「説得可能性」が判明

映画や小説に存在しないシーンについて、 ChatGPT・Claude・Gemini 等の言語モデルが虚偽を真実として受け入れる。研究者が開発した「nudge trial」手法で脆弱性を実証。

LLM セキュリティ AI 脆弱性 Hallucination 研究

続きを読む

Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

2026年5月19日

Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

Cursor が新モデル Composer 2.5 をリリース。Opus 4.7 と GPT-5.5 と同等のベンチマーク結果を実現しながら、価格は $0.50/$2.50/100万トークンと大幅に低廉。開発者が高品質モデルをより手軽に利用できる環境が整いました。

Cursor Composer 開発ツール LLM ベンチマーク

続きを読む

Amazon SageMaker、AI エージェント搭載の自動ファインチューニング――企業の LLM カスタマイズを大幅簡素化

テクノロジー

2026年5月5日

Amazon SageMaker、AI エージェント搭載の自動ファインチューニング――企業の LLM カスタマイズを大幅簡素化

Amazon が SageMaker AI に agentic fine-tuning 機能を追加。開発者が自然言語で指示すると、データ準備からモデル評価・デプロイまでの全プロセスを自動化。Llama・Qwen・Deepseek・Nova など主要オープンモデルに対応

AWS SageMaker 機械学習ファインチューニング LLM

続きを読む

2026年5月2日

xAI が Grok 4.3 をリリース——大幅値下げと Imagine エージェント機能

xAI は2026年5月2日、Grok 4.3 をリリースしました。入力トークン 40%、出力トークン 60% の価格引き下げにより、OpenAI・Anthropic との競争を加速。新たな Imagine エージェントは創作プロジェクトの反復作業に対応します。

xAI Grok LLM 価格戦略 AI競争

続きを読む

Mistral Medium 3.5 発表——チャット・推論・コードを統合した128Bモデル

2026年5月1日

Mistral Medium 3.5 発表——チャット・推論・コードを統合した128Bモデル

Mistral AI が新型フラッグシップモデル「Medium 3.5」を発表。従来は別々だったチャット・推論・コード機能を1つのモデルに統合し、可変的なビジョン機能と柔軟なトークンコスト体系を搭載

Mistral AI LLM モデルリリース

続きを読む

Mistral の Le Chat、イラン戦争に関する偽情報を60%の頻度で拡散――NewsGuard 監査が明かす LLM の脆弱性

セキュリティ

2026年4月30日

Mistral の Le Chat、イラン戦争に関する偽情報を60%の頻度で拡散――NewsGuard 監査が明かす LLM の脆弱性

ファクトチェック機関 NewsGuard が Mistral のチャットボット「Le Chat」を監査し、イラン関連の国家支援偽情報に対する深刻な脆弱性を発見。誘導プロンプトで60%、悪意あるプロンプトで80%のエラー率を記録。

Mistral AI安全性偽情報 LLM NewsGuard

続きを読む

「タルキー」の異なる未来像――1930年までの知識で学習したLLMが予測する2026年

2026年4月30日

「タルキー」の異なる未来像――1930年までの知識で学習したLLMが予測する2026年

13Bパラメータの言語モデル『Talkie』は、1931年以降の出版物を一切学習せずに学習されたユニークなLLM。蒸気船とロボット技術の将来像、そして第二次世界大戦の不可視性を描く、時間軸を逆行する知識構造の実験から見えるもの。

言語モデル LLM 知識の偏差研究 AI解釈性

続きを読む

テクノロジー

2026年4月26日

投資銀行 500 人が AI 出力を本番評価：ゼロ件が『そのまま送付可能』

投資銀行マン 500 人による実務レビューで、最高性能の GPT-5.4 でも 0 件がクライアント送付可。修正の出発点として使用可能は 16% のみ。Claude Opus 4.6、Gemini でも同様傾向。AI が高性能化する一方、実務信頼性の課題が明らかに。

AI ベンチマーク LLM 実務評価 GPT-5.4 Claude Opus 4.6

続きを読む

スタートアップ

2026年4月23日

元 OpenAI 研究者 Jerry Tworek が Core Automation 立ち上げ——新しい AI 研究の道

OpenAI の研究者 Jerry Tworek が新 AI ラボ Core Automation を立ち上げ。トランスフォーマーに代わる新しい学習アルゴリズムを追求する「ネオラボ」の一員に。

OpenAI AI研究 Startup LLM

続きを読む

Moonshot AI、オープンウェイト Kimi K2.6 をリリース。GPT-5.4・Claude Opus 4.6 相当の性能で最大300エージェント並列実行可能

2026年4月21日

Moonshot AI、オープンウェイト Kimi K2.6 をリリース。GPT-5.4・Claude Opus 4.6 相当の性能で最大300エージェント並列実行可能

中国の Moonshot AI が Kimi K2.6 をオープンウェイト（オープンソース）モデルとしてリリースしました。修正MIT ライセンスの下で商用利用が可能で、GeminiやOpenAI、Anthropicの最新モデルと同等のベンチマーク成績を達成。さらに最大300個のサブエージェントを並列制御する先進的なエージェント機構を備えています。

Moonshot AI Kimi オープンソース LLM エージェント

続きを読む

OpenAI が生命科学研究向けの推論モデル GPT-Rosalind をリリース、化学・タンパク質理解で高精度

2026年4月18日

OpenAI が生命科学研究向けの推論モデル GPT-Rosalind をリリース、化学・タンパク質理解で高精度

化学者ロザリンド・フランクリンの名を冠した専門モデル。仮説から実験への移行を高速化し、アムジェン・モデルナなど大手製薬企業がすでに利用開始。

LLM OpenAI 生命科学研究支援

続きを読む

OpenAI が医療向けLLM「GPT-Rosalind」を限定公開、生物学ワークフロー特化

2026年4月17日

OpenAI が医療向けLLM「GPT-Rosalind」を限定公開、生物学ワークフロー特化

OpenAI が生物学の専門ワークフローに最適化された新しいLLMモデル「GPT-Rosalind」の提供を開始した。限定アクセスでの運用。

OpenAI LLM 生物学医療AI

続きを読む

Anthropic が Claude Opus 4.7 をリリース、コーディングで 64.3% を達成し OpenAI を上回る

2026年4月17日

Anthropic が Claude Opus 4.7 をリリース、コーディングで 64.3% を達成し OpenAI を上回る

Claude Opus 4.7 は SWE-bench Pro コーディングベンチマークで 64.3% を獲得し、OpenAI の GPT-5.4（57.7%）を上回った。Anthropic は同時にサイバーセキュリティ機能を意図的に縮小したセキュリティ検証プログラムも開始した。

Anthropic Claude LLM コーディング

続きを読む

OpenAI の新「Spud」モデル、全製品を「著しく改善」——リークされた内部メモから戦略的優先事項を読み解く

2026年4月14日

OpenAI の新「Spud」モデル、全製品を「著しく改善」——リークされた内部メモから戦略的優先事項を読み解く

OpenAI の CRO が明かした内部メモから、新型基盤モデル「Spud」と企業向けエージェントプラットフォーム「Frontier」の開発計画が判明。Anthropic への競争的な発言も含まれている。

OpenAI LLM エージェント企業向けAI

続きを読む

ChatGPT・Claude・Geminiが"静かに"世界観を変える——WHELM偏向と文化均質化の実態

2026年4月11日

ChatGPT・Claude・Geminiが"静かに"世界観を変える——WHELM偏向と文化均質化の実態

ChatGPT・Claude・Geminiを日常的に使うほど、あなたの価値観・世界観・文章スタイルが知らず知らずのうちに均質化されているかもしれない。USC研究者が警告する「WHELM偏向」とは何か。その実態と対策を徹底解説する。

WHELM偏向文化多様性 LLM AI影響世界観

続きを読む

LLM の謎「コードは完璧、日常会話は破綻」——強化学習とタスク検証可能性の限界

2026年4月10日

LLM の謎「コードは完璧、日常会話は破綻」——強化学習とタスク検証可能性の限界

LLM が複雑なコードタスクで優れている一方、日常的な質問に失敗する。この矛盾は検証可能性にある。報酬を得られる領域（コーディング・数学）では強化学習が機能するが、曖昧な領域では最適化が進まない。

LLM 強化学習 Claude ChatGPT AI能力

続きを読む

Arcee：従業員26人のスタートアップが高性能オープンソース LLM で頭角を現す

2026年4月8日

Arcee：従業員26人のスタートアップが高性能オープンソース LLM で頭角を現す

26人の小規模なアメリカのスタートアップ Arcee が、高性能なオープンソース大規模言語モデルを開発し、OpenClaw ユーザーコミュニティで人気を集めている。大手企業との競争の中で、専門性と効率性で存在感を示している。

Arcee オープンソース LLM スタートアップ AI モデル

続きを読む

Anthropic、Claude Mythos Preview 正式発表——防御的サイバーセキュリティに特化した AI モデル

2026年4月8日

Anthropic、Claude Mythos Preview 正式発表——防御的サイバーセキュリティに特化した AI モデル

Anthropic が新モデル「Claude Mythos Preview」を正式発表。企業と政府機関の限定グループと協力して、AI を活用した防御的セキュリティワークに取り組む。

Anthropic Claude AI Security LLM サイバーセキュリティ

続きを読む

Claude Mythos Preview 正式発表——Project Glasswing でサイバー防御 AI に特化

セキュリティ

更新 2026年4月8日

Claude Mythos Preview 正式発表——Project Glasswing でサイバー防御 AI に特化

Anthropic が「Project Glasswing」を発表し、サイバーセキュリティ特化モデル「Claude Mythos Preview」を公開。SWE-bench Verified 93.9%、CyberGym 83.1% を記録し、OpenBSD や Linux カーネルの重大な脆弱性も独自に発見した。

Anthropic Claude Mythos サイバーセキュリティ LLM

続きを読む

Meta が新 AI モデルを部分的にオープンソース化へ、Llama とは別路線で公開方針

2026年4月8日

Meta が新 AI モデルを部分的にオープンソース化へ、Llama とは別路線で公開方針

Meta が新しい AI モデルの一部をオープンソースとして公開する計画をAxiosが報じた。Scale AI 創業者 Alexandr Wang の主導で開発され、プロプライエタリ部分は維持する方針。最大規模のモデルは非公開の予定。

Meta オープンソース LLM Llama

続きを読む

2026年4月7日

Meta が AI トークン消費リーダーボードで社内競争を展開

Meta は社内で従業員の AI トークン消費を競わせるリーダーボードを運用中。トークン消費量が多いほど報酬を得られる仕組みだが、実際の生産性との相関性が疑問視されている。

Meta AI LLM 企業文化

続きを読む

Gemma 4がApache 2.0で全公開、誰でも使えるAIへ

2026年4月3日

Gemma 4がApache 2.0で全公開、誰でも使えるAIへ

Gemma 4の全モデルがApache 2.0で公開され、誰でもソースを見て試せる時代が来ました。スマホからワークステーションまで対応可能で、改変や再配布も認められ、エコシステム拡大の期待が高まっています。

Gemma4 Apache-2.0 オープンソース化 LLM

続きを読む

OpenClaw解放でAI開発はどう変わる？

セキュリティ

2026年3月29日

OpenClaw解放でAI開発はどう変わる？

HuggingFaceの『Liberate your OpenClaw』公開を受け、OpenClawのオープン化はAI開発の協業や透明性を高める追い風になり得る一方で倫理やライセンス議論が進むため、公式発表を注視しつつ組織の方針や安全対策を見直す好機としてください。

OpenClaw LLM セキュリティ倫理ライセンス条件

続きを読む

ニューロン凍結法でLLMの安全性を高める新戦略

2026年3月24日

ニューロン凍結法でLLMの安全性を高める新戦略

ニューロン凍結法は、危険な出力を抑えつつモデル性能の低下を最小限にする有望な訓練手法で、まずは自社モデルの安全性評価とアライメント費用の把握を行い段階的に検証・導入することで信頼性向上が期待できます。

ニューロン凍結法 LLM アライメント費用安全性向上実務適用検証

続きを読む

SPEED-Benchが示す推測デコードの新基準

2026年3月20日

SPEED-Benchが示す推測デコードの新基準

SPEED-Benchは、推測デコード（モデルが次の語を選ぶ過程）を統一と多様性の両面で評価する新しいベンチマークで、公正な比較と再現性の向上が期待されます。

SPEEDBench 推測デコード LLM 評価ベンチマーク

続きを読む

AIチャットの肯定傾向が生む脆弱者リスク

2026年3月18日

AIチャットの肯定傾向が生む脆弱者リスク

ChatGPTなどのAIチャットは便利で、肯定的な返答傾向に配慮した設計や透明な運用、利用者支援の強化により脆弱な人々をよりよく守れます。

ChatGPT LLM 倫理・ガイドライン

続きを読む

OpenAI訴訟：10万件超の記事と著作権

政策・規制

2026年3月17日

OpenAI訴訟：10万件超の記事と著作権

OpenAIが百科事典Britannicaや辞書Merriam‑Websterの約10万件の記事を訓練に使ったとする訴訟は、AI時代のデータ利用ルールを決める重要な分岐点であり、出版者の権利と透明性が裁判で問われています。

OpenAI LLM 著作権訴訟

続きを読む

BalyasnyがGPT-5.4で投資分析を革新

2026年3月7日

BalyasnyがGPT-5.4で投資分析を革新

BalyasnyがGPT-5.4を活用したAI研究エンジンを開発中と報じられました。厳格なモデル評価とエージェント運用で投資分析の速度と透明性を高める狙いがあり、今後の実装とガバナンス整備が注目されます。

GPT-5.4 LLM 投資分析企業導入ガバナンス

続きを読む

データ不足を乗り越える日本のAIとGemini 3.1 Pro

2026年2月20日

データ不足を乗り越える日本のAIとGemini 3.1 Pro

日本のAI開発はデータ不足を課題とし、合成データや合成ペルソナで補う動きが進んでいます。Gemini 3.1 Proは推論力の向上が報じられ、実務導入には多面的な検証と透明性が鍵になります。

Gemini LLM 合成データデータ不足ベンチマーク

続きを読む

AIとトランスフォビア：文脈の迷路を解く

2026年2月10日

AIとトランスフォビア：文脈の迷路を解く

トランスフォビアは文脈で意味が変わるため、LLM設計とプラットフォーム運営が協調して評価指標と透明性を高め、若年層保護や文化差に配慮しつつ安全と表現の自由を両立する道を共に探しましょう。

LLM 生成AI 文脈理解透明性オンラインモデレーション

続きを読む

Gemini搭載Siri、2月のGoogle連携が変える日常

2026年1月26日

Gemini搭載Siri、2月のGoogle連携が変える日常

Gemini搭載のSiriが2月に公開される見込みで、Googleの検索や各種サービスと連携し日常の検索・操作がより自然でスムーズになり、企業の説明責任やユーザーのプライバシー設定も注目される一方、開発者には新たな連携機会が広がります。

Gemini LLM 連携プライバシー

続きを読む

GPT-5.2がGrokipediaを9回引用した検証報告

2026年1月25日

GPT-5.2がGrokipediaを9回引用した検証報告

最新の検証でGPT-5.2がGrokipediaを9回引用していたことが明らかになり、Basij給与やMostazafan Foundationなどの事例を通して出典依存の傾向と透明性改善の必要性を分かりやすく解説します。

GPT-5.2 Grokipedia LLM 外部情報源出典透明性

続きを読む

たった5か月で2.4倍に急増したGemini API活用

2026年1月20日

たった5か月で2.4倍に急増したGemini API活用

GoogleのGemini APIへのリクエストが5か月で35億件から85億件へ約2.4倍に増加したことは、企業のAI活用が一段と本格化している証拠であり、運用やコスト管理、段階的導入と監視体制の整備が重要であることを示しています。

Gemini LLM API活用企業導入

続きを読む

外部監査でAIは測れるか？元OpenAI責任者の挑戦

政策・規制

2026年1月20日

外部監査でAIは測れるか？元OpenAI責任者の挑戦

元OpenAIの研究責任者が立ち上げたAVERIは、主要AIモデルの外部監査を通じて透明性と信頼の向上を目指し、基準作りと実務化の進展に注目が集まります。

AVERI LLM 政策動向

続きを読む

ZhipuAI上場で中国AI投資が動き出す

2026年1月1日

ZhipuAI上場で中国AI投資が動き出す

ZhipuAIが国内初の大型上場候補として注目を集め、Deepseekの成長が追い風となって中国のAI投資が活性化する一方で、投資家は財務面と規制リスクを慎重に見極めることが重要です。

ZhipuAI LLM IPO 資金調達

続きを読む

Salesforce幹部が示すLLM信頼低下の波

2025年12月25日

Salesforce幹部が示すLLM信頼低下の波

Salesforce幹部の指摘を受け、企業はLLMの評価指標や検証手順、データガバナンスを整備して透明性を高め、安全性と実用性を両立させる対応を進めることが重要です。

Salesforce LLM 信頼低下ガバナンス企業導入

続きを読む

AprielGuardが導くLLM安全の新基準

セキュリティ

2025年12月24日

AprielGuardが導くLLM安全の新基準

AprielGuardはLLM（大規模言語モデル）の安全性と攻撃耐性を強化する新たなガードレールで、公式ブログが概念を示しており企業や開発者の導入検討に役立ちます。

AprielGuard LLM セキュリティ企業導入安全性

続きを読む

GPT-5.2徹底解説：何が変わった？Gemini 3 Proとどう違う？

2025年12月12日

GPT-5.2徹底解説：何が変わった？Gemini 3 Proとどう違う？

GPT-5.2の特徴を、性能・価格・得意分野・用途別の使い分け視点から、気になるGemini 3 Proとの違いなど、わかりやすく解説しました。

ChatGPT GPT-5.2 LLM 大規模言語モデル Gemini 3 Pro

続きを読む

【ChatGPT 5.2 最新情報】リリース前夜のOpenAI「コードレッド」とGoogle Gemini 3への対抗策

2025年12月11日

【ChatGPT 5.2 最新情報】リリース前夜のOpenAI「コードレッド」とGoogle Gemini 3への対抗策

OpenAIはGoogleのGemini 3に対抗し、「コードレッド」を宣言。12月9日前後にChatGPT 5.2をリリース予定。応答速度・安定性の向上、パーソナライズ機能強化、ハルシネーション65〜80%削減が特徴。先行提供はPlus/Proユーザー向け。AI競争激化の中、ユーザー体験の向上と収益化が狙い。正式リリース後、さらなる進化が期待される。

ChatGPT GPT-5.2 LLM 大規模言語モデル ChatGPT 5.2

続きを読む

LLMは人と同じように友人を選ぶか？実験が示す傾向

2025年12月3日

LLMは人と同じように友人を選ぶか？実験が示す傾向

最新研究は、LLM（大規模言語モデル）がネットワーキングで人間に似た“友人選び”の傾向を示す可能性を指摘しており、ChatGPTなどの活用時には透明性や倫理を踏まえた運用が重要だと伝えています。

LLM 自然言語処理ガバナンス

続きを読む

GPT-5.1 CodexMax 安全策の全貌

セキュリティ

2025年11月20日

GPT-5.1 CodexMax 安全策の全貌

OpenAIのGPT-5.1 CodexMaxは、モデルとプロダクトの二層で安全策を提示しました。学習段階と運用面を両方で設計する方針が示されており、実務では設定と検証が鍵になります。

CodexMax LLM セキュリティ

続きを読む

Google、開発者向けに最新AIモデル「Gemini 3」を公開　AI StudioとVertex AIでプレビュー提供開始

2025年11月19日

Google、開発者向けに最新AIモデル「Gemini 3」を公開　AI StudioとVertex AIでプレビュー提供開始

Googleが公開した最新AI「Gemini 3」は、1Mトークン長文理解とマルチモーダル、エージェント的自動コーディングを一体化した“開発者向けモンスターLLM”。AI Studioで無料試用し、そのままVertex AIで本番投入も可能です。既存LLMと何が違い、どんなアプリを一気に現実にできるのか、具体例とAPIの勘所を解説します。

Google Gemini 3 Gemini 3 Pro AI LLM

続きを読む

いつくる？AIバブルの崩壊と現場の備え

2025年11月19日

いつくる？AIバブルの崩壊と現場の備え

Googleのサンダー・ピチャイとHugging Faceの指摘を踏まえ、LLMへの過度な期待を抑えつつ小型・専門モデルの実用性を評価し、投資とガバナンスを両立する考え方を提案します。

Google LLM 導入評価投資動向

続きを読む

AIに“生涯記憶”を持たせる挑戦とその衝撃

2025年11月16日

AIに“生涯記憶”を持たせる挑戦とその衝撃

Context Engineering 2.0は、AIに長期的な“記憶”を持たせる設計思想です。保存・更新・忘却を組み合わせ、対話の継続性や個別化を強化しますが、プライバシーや運用の課題も伴います。

セマンティックOS 長期記憶コンテキスト管理 LLM

続きを読む

GPT-5.1のReddit AMAが炎上した本当の理由

政策・規制

2025年11月15日

GPT-5.1のReddit AMAが炎上した本当の理由

RedditでのGPT‑5.1公開Q&Aが親しみある交流から批判の嵐に変わった背景を整理し、方針や透明性の問題点と今後の注目点を分かりやすく解説します。

GPT-5.1 LLM 透明性説明責任

続きを読む

ChatGPTに「グループチャット」登場──AIと人が同じルームで協働する時代へ

2025年11月14日

ChatGPTに「グループチャット」登場──AIと人が同じルームで協働する時代へ

OpenAIがChatGPTに新機能「グループチャット」を公開した。最大20人が同じルームに入り、ChatGPTを含めた全員で計画立案や議論、資料共有ができる。GPT-5.1 Autoによる高度な文脈理解で、必要なときにだけ発言する“空気の読めるAIメンバー”として機能。個人メモリは使用されず、プライバシーも分離。日常の相談からチームのブレストまで、AIと人が同じ空間で協働する新しいコミュニケーション形態が始まった。

ChatGPT OpenAI グループチャット協働ツール LLM

続きを読む

ChatGPT 5.1：AIが自ら考え、ふるまいを変える時代へ

2025年11月14日

ChatGPT 5.1：AIが自ら考え、ふるまいを変える時代へ

ChatGPT 5.1 は「考える量を自分で調整するAI」。深い推論も高速応答もこなす二枚構成に加え、会話スタイルのカスタマイズ性が飛躍。AIと人の関係を“適応型”へと押し進めるアップデートとなった。

OpenAI ChatGPT GPT-5.1 GPT-5 アップデート

続きを読む

GPT-5.1の「8人格」刷新が問うOpenAIの賭け

2025年11月13日

GPT-5.1の「8人格」刷新が問うOpenAIの賭け

GPT-5.1は「Instant」と「Thinking」を使い分け、ChatGPTで選べる8つの性格プリセットを導入した大型アップデートです。速さと深さを両立させる狙いですが、企業は互換性やトークンコストを自社で必ず検証してください。

GPT-5.1 LLM 応答設計性格プリセット

続きを読む

Anthropic、米国に5兆円規模のデータセンター計画

2025年11月13日

Anthropic、米国に5兆円規模のデータセンター計画

Anthropicが米国で約5兆円規模のデータセンター投資を表明しました—テキサスとニューヨークを中心に英国Fluidstackと連携しますが、所在地や稼働時期、設備仕様は未公表で、電力・環境・許認可に加え雇用や地域経済への影響が今後の注目点です。

Anthropic データセンター LLM 提携買収

続きを読む

AIの脳地図で判明：記憶と推論は別領域に

2025年11月12日

AIの脳地図で判明：記憶と推論は別領域に

研究報道は、ChatGPTのような大規模言語モデルで記憶と推論が別領域に分かれている可能性を示しましたが、手法の詳細公開と独立検証が急務です。

ChatGPT LLM ハルシネーション再現性

続きを読む

元責任者が問い直すOpenAIの“性的表現”扱い

政策・規制

2025年11月11日

元責任者が問い直すOpenAIの“性的表現”扱い

元OpenAI責任者Steven Adler氏がWiredのポッドキャストでAIの“性的表現”の扱いに疑問を呈しました。

OpenAI LLM エロ表現利用規約

続きを読む

出典公開でLLM評価が変わる理由――驚きの実態

2025年11月11日

出典公開でLLM評価が変わる理由――驚きの実態

出典を明かすとLLMの評価が左右される報告が出ました。文脈変化や学習データの偏り、アノテーション由来のバイアスが疑われ、教育や採用で公平性が損なわれる恐れがあるため、ブラインド評価や外部監査、判断に人間を残すハイブリッド運用が重要であり、早急な対応が求められます。

出典公開 LLM 公平性学習データ偏り

続きを読む