Entity Types
PII-Fi APIで検出可能なエンティティタイプの一覧です。設定不要で利用できる組み込みエンティティを標準搭載しています。
59種のエンティティタイプを標準搭載。個人情報だけでなく、認証情報・人事労務・医療健康・経営戦略・法務契約・社内識別子など、企業の機密情報を包括的に検出します。
組み込みエンティティ(標準搭載)
個人情報
ルールベース検出日本人名を検出。漢字(田中太郎)・カタカナ(タナカ タロウ)・ローマ字(Tanaka Taro)の姓名ペアを検出。読み仮名やふりがなも対応。
携帯電話・固定電話番号を検出。
メールアドレスを検出。
日本の住所(都道府県〜番地)を検出。
日付を検出(和暦・西暦対応)。
組織情報
ルールベース検出会社名・組織名・部署名を検出。営業本部、第一営業部など日本特有の部署名パターンに対応。
金融・識別情報
ルールベース検出マイナンバー、銀行口座番号などの識別情報を検出。
Visa、Mastercard、JCB等のカード番号を検出。Luhnアルゴリズム検証対応。
技術情報
ルールベース検出IPv4・IPv6アドレスを検出。
WebサイトURLを検出。
ビジネス情報
ルールベース検出プロジェクトコード、契約番号などのビジネス識別子を検出。
文脈解析パイプラインによる検出(標準搭載)
7種の文脈解析パイプラインにより、周辺テキストの文脈から機密カテゴリを自動分類します。 パイプラインごとに有効/無効を切り替え可能です。
金融PII(文脈解析)
文脈解析パイプライン金額や口座番号など、周辺テキストの文脈を解析して自動分類します。
年収、月収、給与など個人の収入に関する金額を文脈から検出。
貯蓄、投資額など個人の資産に関する金額を文脈から検出。
借入金、ローン残高など個人の負債に関する金額を文脈から検出。
所得税、社会保険料、住民税などの税・保険関連情報を文脈から検出。
売上高、営業利益など企業の収益に関する金額を文脈から検出。
総資産、純資産、負債比率など企業の財務状況を文脈から検出。
部門予算、社内コストなど企業の内部情報を文脈から検出。
M&A金額、出資額など企業の戦略的機密情報を文脈から検出。
役員報酬、賞与額など人件費・報酬に関する金額を文脈から検出。
取引金額、契約金額などの取引・契約に関する金額を文脈から検出。
銀行口座番号、クレジットカード番号を文脈から検出。
文脈から分類できなかった金額表現。
認証情報・シークレット(文脈解析)
文脈解析パイプラインAPIキー、トークン、秘密鍵、DB接続情報、クラウド認証情報を検出。
AWS Access Key、OpenAI APIキーなどのAPIキーを検出。
Bearer Token、GitHubトークンなどのアクセストークンを検出。
PEM形式の秘密鍵を検出。
接続文字列、DB接続パスワードを検出。
クラウドサービスのアクセスキーを検出。
パスワード、認証トークンなど上記に分類できなかった認証情報を検出。
人事労務情報(文脈解析)
文脈解析パイプライン人事評価、懲戒処分、勤怠記録、休職・傷病情報、人事異動を検出。
評価グレード、業績評価スコアなどを文脈から検出。
懲戒処分、厳重注意、減給処分などを文脈から検出。
出勤記録、残業時間などの勤怠情報を文脈から検出。
休職届、傷病手当などの休職・医療関連情報を文脈から検出。
異動辞令、昇進記録などの人事異動情報を文脈から検出。
上記に分類されなかった人事関連情報を文脈から検出。
医療健康情報(文脈解析)
文脈解析パイプライン診断名、検査結果、処方情報、保険情報、病歴を検出。
診断名、ICD-10コードなどの診断情報を文脈から検出。
血液検査値、血圧、HbA1cなどの検査結果を文脈から検出。
処方薬名、投薬量などの処方情報を文脈から検出。
保険証番号、被保険者番号などの保険情報を文脈から検出。
既往歴、手術歴などの病歴情報を文脈から検出。
上記に分類されなかった医療関連情報を文脈から検出。
経営戦略情報(文脈解析)
文脈解析パイプラインM&A、業績予想、取締役会決議、事業計画、インサイダー情報を検出。
買収金額、合併条件などのM&A関連情報を文脈から検出。
決算予想、収益見通しなどの業績予想を文脈から検出。
取締役会決定事項、役員人事などを文脈から検出。
中期経営計画、事業計画などの戦略計画を文脈から検出。
非公開重要事実などのインサイダー情報を文脈から検出。
上記に分類されなかった経営戦略関連情報を文脈から検出。
法務・契約情報(文脈解析)
文脈解析パイプライン契約条項、NDA、知的財産、訴訟情報、損害賠償・違約金を検出。
契約条項、契約番号などの契約情報を文脈から検出。
NDA条項、秘密保持義務などを文脈から検出。
特許契約、ライセンス条項などの知的財産情報を文脈から検出。
訴訟内容、和解条件などの訴訟情報を文脈から検出。
違約金条項、損害賠償額などを文脈から検出。
上記に分類されなかった法務関連情報を文脈から検出。
社内識別子(文脈解析)
文脈解析パイプラインプロジェクトID、社員番号、顧客番号、社内URL、文書参照番号を検出。
社内チケット番号、プロジェクトコードを文脈から検出。
従業員ID、社員コードを文脈から検出。
顧客コード、取引先番号を文脈から検出。
イントラネットURL、内部システムURLを文脈から検出。
社内文書番号、稟議番号を文脈から検出。
上記に分類されなかった社内識別子を文脈から検出。
文脈解析パイプラインとは:同じ「500万円」でも、周辺の文脈によって個人収入・企業収益・M&A情報を正確に分類します。詳細は文脈解析パイプラインを参照してください。
Custom Entity Types
カスタム認識器を使用すると、独自のエンティティタイプを定義できます。
EMP-XXXXXX形式の社員番号
CUS-XXXXX-XX形式の顧客ID
ORD-YYYY-NNNNN形式の注文番号
Using enabled_entities
enabled_entities パラメータを使用すると、特定のエンティティタイプのみを検出できます。
# 電話番号とメールアドレスのみ検出
curl -X POST https://api.pii-fi.com/api/detect \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"text": "田中太郎(090-1234-5678)のメールはtanaka@example.com",
"enabled_entities": ["JPII_PHONE_NUMBER", "JPII_EMAIL_ADDRESS"]
}'
# 人名は検出されず、電話番号とメールアドレスのみがマスキングされます
Get Entity Types via API
APIエンドポイントからもエンティティタイプの一覧を取得できます。
curl https://api.pii-fi.com/api/entity_types \
-H "Authorization: Bearer YOUR_API_KEY"