NextAI 海外で話題の最新AIニュース

記事一覧に戻る

Microsoft、訓練データが「ライセンス取得済み」と公約も Common Crawl など無許可データを使用

2026年6月6日 20:12

Microsoft、訓練データが「ライセンス取得済み」と公約も Common Crawl など無許可データを使用

Photo by Steve A Johnson on Unsplash

💡

Microsoft は MAI モデルについて「エンタープライズグレード、商用ライセンス取得済みのクリーンデータ」と謳っていたが、実際には Common Crawl などのウェブスクレイピングデータが混在。OpenAI・Google と同じ手法だが、透明性を強調して差別化してきた同社の発表との矛盾が明らかになった。

Microsoft の MAI（Multimodal AI）モデルについて、訓練データの出所に関する重大な矛盾が浮上した。同社は企業向けに「エンタープライズグレード、商用ライセンス取得済みのクリーンデータのみを使用」と公表していたにもかかわらず、実際には Common Crawl などの無許可ウェブデータが訓練に組み込まれていたことが判明した。

公約と実態の乖離

Microsoft の公式発表では、MAI モデルの訓練データについて「企業向けの厳密な基準を満たす、ライセンス取得済みのデータ」と強調してきた。これは OpenAI や Google などのモデルと異なる「清潔性」を売り文句にしていたものだ。しかし、公開された技術文書を詳しく読むと、訓練パイプラインに「公開利用可能なデータ」が含まれており、Common Crawl（インターネット全体をスクレイピングしたオープンデータセット）が混在していることが明らかになった。

Microsoft は「社有の Web クローラーで、Robots.txt を遵守している」と述べているが、これは「許可を事前に取った」ことを意味しない。むしろ「拒否されたら接続を避ける」という後付けの方式であり、所有者が明示的に許可を与えていないのが実態だ。

業界全体の問題を映す鏡

この問題の本質は、Microsoft 固有のものではない。OpenAI も Google も DeepMind も、訓練データに大規模ウェブスクレイピングを活用している。ただし、これらの企業は（一般的には）そうした事実を前面には押し出さない。一方、Microsoft は「我々は異なる」「クリーンデータを使っている」というメッセージングを強化していたため、乖離が際立つ。

「Fair Use（公正な利用）」の解釈に頼ることで、法的責任を回避しようとする戦略は業界共通だ。つまり、データ所有者が異議を唱えない限り、利用を続けるというスタンスである。

透明性と信頼の課題

AI 業界が拡大するなか、訓練データの出所についてユーザーや企業が求める透明性が、実現と乖離しているという問題は避けられない。特に Microsoft のように「企業向けの厳密性」を謳う場合、その承諾が実際に実現されているかどうかは信頼に直結する。

今回の矛盾は、単なる「ポリシーと実装のズレ」ではなく、業界全体が直面する構造的な課題を浮き彫りにしている。訓練データの透明化、ライセンス管理、著作権と AI 開発のバランスについて、より明確な枠組みが求められる段階に入っている。

記事をシェア

タグ

AI企業訓練データ倫理透明性 Microsoft

参考ソース

★ 注目 THE DECODER

ビジネスの記事

Shanghai World AI Conference で見えた中国の技術躍進、ヒューマノイドロボット400以上と半導体・AI 開発の並行戦略

2026年7月21日

Shanghai World AI Conference で見えた中国の技術躍進、ヒューマノイドロボット400以上と半導体・AI 開発の並行戦略

2026年7月17～20日に上海で開催された World AI Conference には1,100社以上が出展。中国企業は400以上のヒューマノイドロボット、オープンウェイト AI モデル、独自半導体を展示し、米国との競争が本格化していることを示しました。

OpenAI がオープンウェイトモデルを警戒、政策提案から規制へ――競争構図の転換点

2026年7月21日

OpenAI がオープンウェイトモデルを警戒、政策提案から規制へ――競争構図の転換点

OpenAI が中国の Kimi K3 など台頭するオープンウェイトモデルについて、米国政府に規制を求める動き。ビジネス脅威と国家安全保障という二つの問題軸。業界の価格競争が加速。

Anthropic が 15 億ドル著作権和解を最終承認、AI 学習のフェアユース判定が業界転機に

2026年7月21日

Anthropic が 15 億ドル著作権和解を最終承認、AI 学習のフェアユース判定が業界転機に

著作権保有者への和解金支払いが最終承認される一方、判決は「AI モデル学習自体はフェアユース」と判定。違法利用行為は問われたが、学習プロセスの法的地位に新たな道筋を示した。

関連タグの記事

海賊版データ削除で問われるMicrosoftの透明性

2026年2月21日

海賊版データ削除で問われるMicrosoftの透明性

Microsoftが一時削除した海賊版Harry Potterを巡る学習ガイドの件は、データ出典と透明性の重要性を改めて示しており、企業や研究者は出典管理を強化して法的・倫理的リスクを低減する取り組みと実務ルールの整備が期待されます。

マイクロソフト、販売チームに OpenAI・Anthropic を批判するよう指導——競争激化で自社モデルの優位性を強調

2026年7月16日

マイクロソフト、販売チームに OpenAI・Anthropic を批判するよう指導——競争激化で自社モデルの優位性を強調

マイクロソフトが社内の販売チームに対し、OpenAI と Anthropic 製品を競合比較で批判するよう指導していることが判明。自社モデルの統合性とセキュリティ強化をアピール、AI 市場での競争を加速させている。

Nadella が警告：プロプライエタリ AI 導入企業が負う『二重支払い』のリスク——データ流出・競争不利・ロックイン

2026年7月14日

Nadella が警告：プロプライエタリ AI 導入企業が負う『二重支払い』のリスク——データ流出・競争不利・ロックイン

Microsoft CEO Satya Nadella は、企業が OpenAI や Anthropic などのプロプライエタリモデルを導入する際の危険性を指摘。顧客入力データから企業秘密が学習される可能性と、特定モデルへの依存深化を警告している。

最新記事

Shanghai World AI Conference で見えた中国の技術躍進、ヒューマノイドロボット400以上と半導体・AI 開発の並行戦略

2026年7月21日

Shanghai World AI Conference で見えた中国の技術躍進、ヒューマノイドロボット400以上と半導体・AI 開発の並行戦略

2026年7月17～20日に上海で開催された World AI Conference には1,100社以上が出展。中国企業は400以上のヒューマノイドロボット、オープンウェイト AI モデル、独自半導体を展示し、米国との競争が本格化していることを示しました。

中国ロボット AI 世界AI会議米中競争

南韓が2026年末に無料国産 AI チャットボット公開、外国製サービス依存からの脱却を加速

政策・規制

2026年7月21日

南韓が2026年末に無料国産 AI チャットボット公開、外国製サービス依存からの脱却を加速

南韓政府が2026年末までに、国産技術による無料 AI チャットボットの提供を開始します。デジタル・ディバイド解消と AI 主権確立が目標。2027年からは個人化 AI エージェント機能も展開予定です。

南韓 AI 主権チャットボットデジタルディバイド国家戦略

Xiaomi-Robotics-1 が実証、ロボット学習ではデータスケーリングがモデルサイズを上回る

テクノロジー

2026年7月21日

Xiaomi-Robotics-1 が実証、ロボット学習ではデータスケーリングがモデルサイズを上回る

Xiaomi が公開したロボット学習モデルは、10万時間以上の動作データで平均75%の成功率を達成。言語モデルと異なり、ロボティクスではデータスケーリングの効果がモデルサイズより顕著であることを実証しました。

Xiaomi ロボット機械学習データスケーリングロボティクス

Moonshot、Kimi K3 の購読を停止へ――48時間でGPU需要が限界を超える

テクノロジー

2026年7月21日

Moonshot、Kimi K3 の購読を停止へ――48時間でGPU需要が限界を超える

2.8兆パラメータのオープンソースモデル Kimi K3 が予想以上の需要に直面。わずか48時間でサーバーキャパシティが限界に。中国AI市場の急速な成長を示す一枚。

Moonshot Kimi LLM 中国AI オープンソース

YouTube が AI 生成コンテンツの収益化を明確に禁止――2026年7月新ポリシー

政策・規制

2026年7月21日

YouTube が AI 生成コンテンツの収益化を明確に禁止――2026年7月新ポリシー

YouTube が YPP（パートナープログラム）の収益化基準を改正。AI生成の低質コンテンツ、視聴者操作型の不快動画、AI人格による金融・医療・法律議論を全面禁止。クリエイター必読。

YouTube AI生成ポリシークリエイター収益化

AI チャットボットの投票アドバイスは信頼できない、ハンガリー選挙研究が実証

政策・規制

2026年7月21日

AI チャットボットの投票アドバイスは信頼できない、ハンガリー選挙研究が実証

ハンガリー選挙での調査で、ChatGPT や Gemini などのチャットボットが投票者に不正確で矛盾した政党推奨を行うことが判明。民主的プロセスへのリスク。

AI信頼性投票選挙民主主義チャットボット

すべての記事を見る