OpenAI が個人情報を自動的に検出・削除するための AI モデル「Privacy Filter」をオープンソースで公開しました。Apache 2.0 ライセンスの下、GitHub と Hugging Face で提供されており、商用利用も許可されています。

検出・削除の対象データ

Privacy Filter は以下の 8 つのカテゴリの個人情報を自動認識します:

  • 個人名
  • 住所
  • メールアドレス
  • 電話番号
  • URL
  • 日付
  • 口座番号
  • パスワードや API キーなどの機密情報

テキスト内でこれらの情報を検出し、ラベル付けまたは削除することで、データセットの個人情報除去(PII 削除)を効率化します。

技術仕様と特徴

パラメータ規模と効率性

  • 総パラメータ: 15 億個
  • リクエストごとのアクティブパラメータ: 5000 万個

小規模な設計により、エッジデバイスでの実行が可能です。

処理能力

  • コンテキストウィンドウ: 128,000 トークン
  • 特徴: 長文ドキュメントも分割せずに処理可能

実行環境

ローカルラップトップやブラウザ上で動作し、クラウドサーバーへのデータ送信が不要です。オンプレミス環境でのセキュアな処理が実現できます。

削減精度の調整

ユーザーはアグレッシブ(積極的に削除)とコンサーバティブ(慎重に削除)のモードを選択でき、用途に応じて感度を調整できます。

企業向け用途

Privacy Filter は組織内で以下のような場面で活用できます:

  • AI モデルの訓練データ準備: 個人情報を含むテキストを学習前に自動処理
  • 第三者へのデータ共有: 外部と共有する前にデータセットから個人情報を削除
  • データセキュリティ強化: 顧客データやログ、メールの一括処理

OpenAI の発表によれば、オープンソース化の目的は「機密情報を扱う組織全体に、データ保護ツールへのアクセスを広げること」にあります。

制限事項と注意点

OpenAI は以下の制限を明確に記載しています:

  • 法的保証なし: 本ツールは「匿名化の法的保証を提供しない」
  • 言語・スクリプト依存: 稀な人名、英語以外のテキスト、非ラテン文字での精度が低下
  • 業界別対応の限界: ヘルスケア、法律、金融、人事などの特定業界では、AI による自動処理だけでは不十分。最終的には人間による検証が必須

Privacy Filter は補助ツールであり、高度な規制対応が必要な分野では、専門家による最終確認が引き続き必要です。