機密情報の種類/ルール パッケージと完全に一致するデータを作成する

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータ セキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview コンプライアンス ポータルのトライアル ハブで今すぐ開始してください。 サインアップと試用期間の詳細については、こちらをご覧ください。

適用対象

Microsoft Purview コンプライアンス ポータルの [正確なデータ 一致スキーマと SIT パターン を使用する] ツールを使用して、完全なデータ一致 (EDM) SIT (SIT) を作成することも、XML ファイルとして ルール パッケージを手動で作成 することもできます。 1 つのメソッドを使用してスキーマを作成し、後でもう一方のメソッドを使用して編集することで、2 つのメソッドを組み合わせることもできます。

EDM ベースの SITS やその実装に慣れていない場合は、次のことを理解しておく必要があります。

前提条件

次の記事の手順を実行します。

  1. 完全なデータ一致ベースの機密情報の種類のソース データをエクスポートする
  2. 完全なデータ一致に基づく機密情報の種類のスキーマを作成する
  3. 機密情報の種類と完全に一致する機密情報のソース テーブルをハッシュしてアップロードする
  • ツールを使用して EDM SIT を作成する場合も、PowerShell を使用してルール パッケージ XML ファイルを作成する場合でも、UI を使用してカスタム SIT を作成、テスト、デプロイするには、グローバル管理者またはコンプライアンス管理者のアクセス許可が必要です。 「Office 365 の管理者ロールについて」を参照してください。

重要

Microsoft では、アクセス許可が最も少ないロールを使用することをお勧めします。 これにより、組織のセキュリティが向上します。 グローバル管理者は、特権の低いロールを使用できないシナリオでのみ使用する必要がある、高い特権を持つロールです。

  • プライマリ要素 SIT として使用する組み込みの 1 つの SID を特定します。
    • 組み込みの SID が選択した列のデータと一致しない場合は、カスタム SIT を作成する必要があります。
    • スキーマのプライマリ要素列で [無視された区切り記号] オプションを選択した場合は、作成するカスタム SIT が、選択した区切り記号の有無にかかわらずデータと一致することを確認します。
    • 組み込みの SIT を使用する場合は、選択する文字列が正確に検出され、周囲の文字が含まれていないか、機密情報テーブルに格納されている文字列の有効な部分が除外されていないことを確認します。

機密情報の種類のエンティティ定義 」および「 カスタム機密情報の種類を作成する」を参照してください

正確なデータ一致スキーマと SIT パターン ツールを使用する

このツールを使用して SIT ファイルを作成し、プロセスを簡略化できます。

EDM SIT は、1 つ以上のパターンで構成されます。 各パターンは、ドキュメントまたは電子メール (証拠) 内の機密性の高いコンテンツを識別するために使用されるスキーマのフィールドの組み合わせを記述します。

現在使用しているポータルに該当するタブを選択してください。 Microsoft Purview ポータルの詳細については、Microsoft Purview ポータルを参照してください。 コンプライアンス ポータルの詳細については、「Microsoft Purview コンプライアンス ポータル」を参照してください。

  1. Microsoft Purview ポータル>Information Protection>Classifiers>EDM 分類子にサインインします。

    1. [新しい EDM エクスペリエンス] トグルを [オフ] に設定します
  2. [EDM 機密情報の種類] と [EDM 機密情報の種類の作成] を選択して、機密情報の種類の構成ツールを開きます。

  3. [ 既存の EDM スキーマの選択] を選択 し、「 完全なデータ一致ベースの機密情報の種類のスキーマを作成する」で作成したスキーマを選択します。 [追加] を選択します。

  4. 次へ を選択し、パターンの作成 を選択します。

  5. 信頼度レベルプライマリ要素を選択します。 信頼度の詳細については、「機密情報の 種類について」を参照してください。

  6. 関連付ける 主要素の機密情報の種類 を選択して、ドキュメント内のテキストをプライマリ要素フィールドのすべての値と比較するテキストを定義します。 使用可能な機密情報の種類の詳細については、「 SIT エンティティ定義」を 参照してください。

    重要

    検索するコンテンツの形式と密接に一致する SIT を選択します。 不要なコンテンツ ( すべての テキスト文字列に一致するものなど) と一致する SIT を選択すると、 システム に過剰な負荷が発生し、機密情報が検出されずに残る可能性があります。

  7. サポート 要素 と一致オプションを選択します。

  8. [完了] を選択します。

  9. EDM SIT の追加パターンを作成する場合は、[パターンの 作成 ] を選択します。

  10. [次へ] を選択します。

  11. 目的の [推奨される信頼度] レベル[キャラクターの近接度] を選択します。 これは、EDM SIT 全体の既定値になります。 (文字の近接については、「近接性 について」を参照してください)。 [次へ] を選択します。

  12. [次へ] を選択し、名前 および管理者向けの説明 を入力します。

    スキーマ ファイルを作成するときは、列ヘッダー (データ フィールド) が次の名前付け要件に準拠している必要があります。
    - 文字で始まり、少なくとも 3 文字の英数字で構成する必要があります。
    - 英数字のみを含める必要があります。

  13. レビューし、[送信] を選択します。

SIT パターンを編集または削除する

現在使用しているポータルに該当するタブを選択してください。 Microsoft Purview ポータルの詳細については、Microsoft Purview ポータルを参照してください。 コンプライアンス ポータルの詳細については、「Microsoft Purview コンプライアンス ポータル」を参照してください。

  1. Microsoft Purview ポータル>Information Protection>Classifiers>EDM 分類子にサインインします。

    1. [新しい EDM エクスペリエンス] トグルを [オフ] に設定します
  2. [EDM 機密情報の種類] を選択します

  3. 編集する EDM SIT を選択します。

  4. ポップアップから [ EDM 機密情報の種類の編集] または [EDM 機密情報の種類の削除 ] を選択します。

  5. 編集の手順については、「 正確なデータ一致スキーマと SIT パターン ツールを使用 する」を参照してください。

特定の種類のデータの操作

パフォーマンス上の理由から、不要な一致の数を最小限に抑えるパターンを使用することが重要です。 たとえば、正規表現に基づいて SIT を使用できます。

\b\w*\b

これは、任意のドキュメントまたは電子メール内のすべての個々の単語または番号と一致します。 これにより、サービスが一致でオーバーロードされ、真の一致が検出されなくなる可能性があります。 より正確なパターンを使用すると、この状況を回避できます。 一般的な種類のデータに適した構成を特定するための推奨事項を次に示します。

メール アドレス: メール アドレスは識別が容易ですが、機密性の高いコンテンツでは一般的であるため、プライマリ フィールドとして使用すると、システムに大きな負荷が発生する可能性があります。 電子メール の追加者は、セカンダリ証拠としてのみ使用します。 それらが主要な証拠として使用される必要がある場合は、カスタム SIT を定義するときに、電子メール アドレスが電子メールのフィールドとして From または To フィールドとして使用されるアイテムを除外するロジックを使用します。 また、ロジックを使用して会社のドメインからメール アドレスを除外し、一致する必要がある不要な文字列の数を減らします。

電話番号: 電話番号は、国/地域のプレフィックス、エリア コード、区切り記号など、さまざまな形式で使用できます。 読み込みを最小限に抑えながら偽陰性を減らすには、セカンダリ要素としてのみ使用し、かっこやダッシュなどの可能性のあるすべての区切り記号を除外し、電話番号に常に存在する部分のみを機密データ テーブルに含めます。

ユーザーの名前: 正規表現に基づく SIT をこの EDM 型の分類要素として使用する場合は、一般的な単語と区別するのが難しいため、ユーザーの名前を主な要素として使用しないでください。

処理する大量の一致を生成する可能性がある特定のパターン (プロジェクト コード名など) で識別しにくいプライマリ要素を使用する必要がある場合は、EDM 型の分類要素として使用する SIT にキーワードを含めてください。 たとえば、通常の単語でもあるプロジェクト コード名を使用する場合は、EDM 型の分類要素として使用する SIT 内のプロジェクト名正規表現ベースのパターンに近接して、必要な追加の証拠として project という単語を使用できます。 または、EDM SIT の分類要素として、通常のディクショナリに基づく SIT の使用を検討することもできます。

数値文字列と一致させる場合は、数字の数や開始桁数などの数値の範囲を指定します (既知の場合)。 比較的柔軟な数値範囲を一致させる必要がある場合は、ベース SIT のキーワードを使用して一致する数を減らすことができます。 たとえば、7 から 11 桁の数字で構成されるアカウント番号を照合する場合は、必要な追加の証拠として、 accountcustomeracct. という単語を SIT に追加します。 これにより、処理できる EDM 一致の制限を超える可能性がある不要な一致の可能性が減ります。

プライマリ要素として使用する必要があるフィールドが単純なパターンに従い、多数の一致が発生する可能性があり、SIT で追加の証拠としてキーワードの存在を追加できない場合は、代わりにそのパターンの出現回数を最小限に抑える必要があります。 たとえば、次の方法で定義されているカスタム SIT を使用して、機密コンテンツ内で照合する可能性のある 5 桁の数値を囲む他の 5 桁の数値を少なくとも 29 個検出できます。

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

場合によっては、履歴上の理由から標準化されたパターンに従わない特定のアカウント番号またはレコード識別番号を識別しなければならない場合があります。 たとえば、 Medical Record Numbers は、同じ組織内の文字と数字のさまざまな順列で構成できます。 最初はパターンを特定するのが難しい場合がありますが、詳細な検査を行うと、無効な一致が過剰に発生することなく、すべての有効な値を記述するパターンを絞り込むことが多くなります。 たとえば、"すべての MRN は少なくとも 7 文字の長さであり、少なくとも 2 つの数字が含まれており、文字が含まれる場合は 1 文字で始まります" と検出される場合があります。 このような条件に基づいて正規表現を作成すると、必要なすべての値をキャプチャしながら不要な一致を最小限に抑えることができます。さらに分析を行うと、さまざまな形式を記述する個別のパターンを定義することで精度が向上する可能性があります。

ルール パッケージを手動で作成する

この手順では、ルール パッケージ (Unicode エンコード) と呼ばれる XML 形式のファイルを作成し、セキュリティ & コンプライアンス PowerShell コマンドレットを使用して Microsoft Purview にアップロードする方法について説明します。

注:

マップする SIT が複数ワードの裏付け証拠を検出できる場合は、手動で作成されたルール パッケージで定義したセカンダリ要素を SIT にマップできます。 たとえば、 John Smith 名前は、コンテンツ内の JohnSmith を、その検証証拠フィールドがそのパターンを検出できる SIT にマップされていない場合、いずれかのフィールドにアップロード John Smith 用語と個別に比較するため、セカンダリ要素として一致しません。

Microsoft 365 テナントには、10 個のルール パッケージの制限があります。 ルール パッケージには任意の数の機密情報の種類を含めることができるため、このメソッドを使用して新しい SIT を定義するたびに新しいルール パッケージを作成しないようにすることができます。代わりに、既存のルール パッケージをエクスポートし、再アップロードする前に機密情報の種類を XML に追加します。

  1. 次の例のように、XML 形式 (Unicode エンコード) でルール パッケージを作成します。 (この例は、コピー、変更、使用することができます。)

    ルール パッケージを設定するときは、.csv、.tsv、またはパイプ (|) で区切られた機密情報ソース テーブル ファイルとスキーマ ファイル edm.xml 正しく参照してください。 この例は、コピー、変更、使用が可能です。 このサンプル xml では、EDM 機密型を作成するために、次のフィールドをカスタマイズする必要があります。

    • RulePack id & ExactMatch id: New-GUID を使用して GUID を作成します。

    • Datastore: このフィールドは、使用する EDM ルックアップデータストアを指定します。 構成された EDM スキーマのデータ ソース名を指定します。

    • idMatch: このフィールドは、EDM の主要素を示します。

    • 一致: 正確な検索で使用するフィールドを指定します。 データストアの EDM スキーマで検索可能なフィールド名を指定します。

    • 分類: このフィールドは、EDM 参照をトリガーする SIT 一致を指定します。 既存の組み込みまたはカスタム SIT の名前または GUID を使用できます。

    注:

    提供された SIT に一致する文字列はハッシュされ、機密情報ソース テーブル内のすべてのエントリと比較されることに注意してください。 分類要素にカスタム SIT を選択した場合のパフォーマンスの問題を回避するには、コンテンツの大部分に一致するものを使用しないでください。 たとえば、"任意の数値" または "任意の 5 文字の単語" と一致するものなどです。 サポート キーワードを追加するか、カスタム分類 SIT の定義に書式設定を含めることで区別できます。

    • 一致: このフィールドは、idMatch の近接で検出された追加の証拠を指します。

    • 一致: DataStore の EDM スキーマに任意のフィールド名を指定します。

    • リソース idRef: このセクションでは、複数のロケールの機密型の名前と説明を指定します

      • ExactMatch ID の GUID を指定します。
      • 説明 & 名前: 必要に応じてカスタマイズします。
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. 次の PowerShell コマンドを実行して、ルール パッケージをアップロードします。

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

注:

ルール パッケージ ファイルの構文は、他の機密情報の種類と同じです。 ルール パッケージ ファイルの構文と追加の構成オプションの詳細、および PowerShell を使用した機密情報の種類の変更と削除の手順については、「 PowerShell を使用してカスタム SIT を作成する」を参照してください。

次の手順