OpenAI、プライバシーフィルタをオープンソース化――個人データ自動検出・削除ツール
OpenAI が Privacy Filter をApache 2.0 ライセンスで公開。個人情報を自動検出・削除でき、企業のデータセット処理に活用可能。
OpenAI が個人情報を自動的に検出・削除するための AI モデル「Privacy Filter」をオープンソースで公開しました。Apache 2.0 ライセンスの下、GitHub と Hugging Face で提供されており、商用利用も許可されています。
検出・削除の対象データ
Privacy Filter は以下の 8 つのカテゴリの個人情報を自動認識します:
- 個人名
- 住所
- メールアドレス
- 電話番号
- URL
- 日付
- 口座番号
- パスワードや API キーなどの機密情報
テキスト内でこれらの情報を検出し、ラベル付けまたは削除することで、データセットの個人情報除去(PII 削除)を効率化します。
技術仕様と特徴
パラメータ規模と効率性
- 総パラメータ: 15 億個
- リクエストごとのアクティブパラメータ: 5000 万個
小規模な設計により、エッジデバイスでの実行が可能です。
処理能力
- コンテキストウィンドウ: 128,000 トークン
- 特徴: 長文ドキュメントも分割せずに処理可能
実行環境
ローカルラップトップやブラウザ上で動作し、クラウドサーバーへのデータ送信が不要です。オンプレミス環境でのセキュアな処理が実現できます。
削減精度の調整
ユーザーはアグレッシブ(積極的に削除)とコンサーバティブ(慎重に削除)のモードを選択でき、用途に応じて感度を調整できます。
企業向け用途
Privacy Filter は組織内で以下のような場面で活用できます:
- AI モデルの訓練データ準備: 個人情報を含むテキストを学習前に自動処理
- 第三者へのデータ共有: 外部と共有する前にデータセットから個人情報を削除
- データセキュリティ強化: 顧客データやログ、メールの一括処理
OpenAI の発表によれば、オープンソース化の目的は「機密情報を扱う組織全体に、データ保護ツールへのアクセスを広げること」にあります。
制限事項と注意点
OpenAI は以下の制限を明確に記載しています:
- 法的保証なし: 本ツールは「匿名化の法的保証を提供しない」
- 言語・スクリプト依存: 稀な人名、英語以外のテキスト、非ラテン文字での精度が低下
- 業界別対応の限界: ヘルスケア、法律、金融、人事などの特定業界では、AI による自動処理だけでは不十分。最終的には人間による検証が必須
Privacy Filter は補助ツールであり、高度な規制対応が必要な分野では、専門家による最終確認が引き続き必要です。