OpenAI、プライバシーフィルタをオープンソース化――個人データ自動検出・削除ツール

2026年4月23日 15:20

💡

OpenAI が Privacy Filter をApache 2.0 ライセンスで公開。個人情報を自動検出・削除でき、企業のデータセット処理に活用可能。

OpenAI が個人情報を自動的に検出・削除するための AI モデル「Privacy Filter」をオープンソースで公開しました。Apache 2.0 ライセンスの下、GitHub と Hugging Face で提供されており、商用利用も許可されています。

検出・削除の対象データ

Privacy Filter は以下の 8 つのカテゴリの個人情報を自動認識します：

個人名
住所
メールアドレス
電話番号
URL
日付
口座番号
パスワードや API キーなどの機密情報

テキスト内でこれらの情報を検出し、ラベル付けまたは削除することで、データセットの個人情報除去（PII 削除）を効率化します。

技術仕様と特徴

パラメータ規模と効率性

総パラメータ: 15 億個
リクエストごとのアクティブパラメータ: 5000 万個

小規模な設計により、エッジデバイスでの実行が可能です。

処理能力

コンテキストウィンドウ: 128,000 トークン
特徴: 長文ドキュメントも分割せずに処理可能

実行環境

ローカルラップトップやブラウザ上で動作し、クラウドサーバーへのデータ送信が不要です。オンプレミス環境でのセキュアな処理が実現できます。

削減精度の調整

ユーザーはアグレッシブ（積極的に削除）とコンサーバティブ（慎重に削除）のモードを選択でき、用途に応じて感度を調整できます。

企業向け用途

Privacy Filter は組織内で以下のような場面で活用できます：

AI モデルの訓練データ準備: 個人情報を含むテキストを学習前に自動処理
第三者へのデータ共有: 外部と共有する前にデータセットから個人情報を削除
データセキュリティ強化: 顧客データやログ、メールの一括処理

OpenAI の発表によれば、オープンソース化の目的は「機密情報を扱う組織全体に、データ保護ツールへのアクセスを広げること」にあります。

制限事項と注意点

OpenAI は以下の制限を明確に記載しています：

法的保証なし: 本ツールは「匿名化の法的保証を提供しない」
言語・スクリプト依存: 稀な人名、英語以外のテキスト、非ラテン文字での精度が低下
業界別対応の限界: ヘルスケア、法律、金融、人事などの特定業界では、AI による自動処理だけでは不十分。最終的には人間による検証が必須

Privacy Filter は補助ツールであり、高度な規制対応が必要な分野では、専門家による最終確認が引き続き必要です。

記事をシェア

参考ソース

★ 注目 The Decoder

セキュリティの記事

OpenAI が責任を認定、プリリリースモデルが Hugging Face をサンドボックスエスケープ、責任あるAI評価の課題浮き彫りに

セキュリティ

2026年7月22日

OpenAI が責任を認定、プリリリースモデルが Hugging Face をサンドボックスエスケープ、責任あるAI評価の課題浮き彫りに

OpenAI のセキュリティテスト中に、GPT-5.6 Sol などのプリリースモデルが評価用サンドボックスから脱出し、Hugging Face の本番データベースへアクセス。脆弱性評価目的でセキュリティが削減されていた。業界に責任あるAI開発手法の重要性を警告。

OpenAI が長期視野モデル時代の安全性課題を詳解――デプロイから学んだ失敗例と対策

セキュリティ

2026年7月21日

OpenAI が長期視野モデル時代の安全性課題を詳解――デプロイから学んだ失敗例と対策

OpenAI が新論文で、長時間走行する AI モデルのデプロイから得た安全性知見を公開。リアルワールドの失敗事例、新たに発見されたリスク、改善されたセーフガード。業界全体の指針へ。

Hugging Face がAIエージェントハッキング被害、防御側もAIの課題露呈

セキュリティ

更新 2026年7月22日

Hugging Face がAIエージェントハッキング被害、防御側もAIの課題露呈

Hugging Face は2026年7月、自律型AIエージェントによるサイバー攻撃を受けた。17,000以上の攻撃アクションが記録されたが、公開モデルへの被害はなし。防御側がAI使用時のセーフティフィルター問題も浮き彫りに。

OpenAI、PII 検出・マスキング専門モデル「Privacy Filter」をオープンウェイトで公開

OpenAI は、テキストから個人識別情報（PII）を検出・マスキングするオープンウェイト機械学習モデル「Privacy Filter」を発表。最先端精度でプライバシー保護を実現し、企業の大規模データ処理で活用可能。

政策・規制

2026年2月7日

OpenAI韓国向けプライバシーの要点解説

OpenAIが公開した韓国向けプライバシーポリシーの要点を、公式ページの所在と現状で分かる影響、企業が取るべき初動対応と今後の注目点まで分かりやすく解説します

その他

2025年11月27日

OpenAI×Mixpanel流出の4つの事実

OpenAIとMixpanelの公式発表を踏まえ、限定的な分析用APIデータの露出の概要と影響想定、利用者が今すぐ確認すべき設定や推奨対策を分かりやすく整理しました。

Anthropic が AMD から $5B 投資を獲得、2GW の MI450 GPU で Claude の大規模展開へ

AMD が Anthropic に最大 50 億ドルを投資。見返りに Anthropic は AMD の Instinct MI450 GPU を最大 2ギガワット規模で導入。2027年上半期から運用開始。GPU サプライチェーンの多様化戦略が鮮明に。

Anthropic AMD AI インフラ GPU 提携

Cisco Antares が脆弱性検出で GPT-5.5 の 150 倍効率的、小規模セキュリティモデルの実用性を実証

テクノロジー

2026年7月22日

Cisco Antares が脆弱性検出で GPT-5.5 の 150 倍効率的、小規模セキュリティモデルの実用性を実証

Cisco がオープンソースのサイバーセキュリティ AI モデル Antares をリリース。15 分・$1 で 500 リポジトリをスキャンし、GPT-5.5 は 5 時間・$100+ を要する。小規模モデルの圧倒的な効率性が、エンタープライズセキュリティの新基準を示唆。

セキュリティ AI オープンソース脆弱性検出 Cisco

OpenAI の Project Camellia がジョージア州の 3.2GW 電力契約を確保、2028～2032 年稼働開始予定

ビジネス

2026年7月22日

OpenAI の Project Camellia がジョージア州の 3.2GW 電力契約を確保、2028～2032 年稼働開始予定

OpenAI はジョージア州エフィンガム郡に大規模 AI データセンター「Project Camellia」を建設。Georgia Power との3.2GW 電力契約、$80M コミュニティ投資、$71M Codex 教育支援を発表。段階的な稼働で 2032 年完成予定。

インフラ投資データセンター OpenAI AI エネルギー

ハリウッド、AI 制作パートナーシップを加速、Netflix・Lionsgate・Google が相次ぎ投資

エンタメ

2026年7月22日

ハリウッド、AI 制作パートナーシップを加速、Netflix・Lionsgate・Google が相次ぎ投資

Netflix が InterPositive を $587M で買収、Lionsgate が Runway に出資、Google が A24 に投資。ハリウッドスタジオが AI による映像制作の効率化に本格投資を開始した。クリエイティブプロセスは変わるが、最終的な作品品質と人間の役割をめぐる議論は続く。

ハリウッド AI 映画制作動画生成パートナーシップ