Экспорт исходных данных для точного сопоставления типов конфиденциальной информации на основе данных

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Сфера применения

Таблица конфиденциальных данных — это текстовый файл, содержащий строки значений, с которыми сравнивается содержимое в документах для идентификации конфиденциальных данных. Эти значения могут быть персональными данными, записями продуктов или другими конфиденциальными данными в текстовой форме, которые необходимо обнаружить в содержимом и защитить.

После экспорта данных в таблицу (в одном из поддерживаемых форматов) можно создать схему EDM.

Определение типа EDM Sensitive

При определении типа конфиденциальности EDM одним из наиболее важных решений является определение полей, которые являются основными. Первичные поля должны соответствовать обнаруживаемому шаблону и определяться как поля (столбцы) для поиска в схеме EDM. Вторичные поля не должны следовать ни одному шаблону, так как они будут сравниваться со всем текстом, окружающим совпадения с основными полями.

Используйте эти правила, чтобы решить, какие столбцы следует использовать в качестве основных полей:

  • Если необходимо обнаружить конфиденциальные данные на основе наличия одного значения, соответствующего полю в таблице конфиденциальных данных, независимо от наличия других связанных с ним конфиденциальных данных, этот столбец должен быть определен в качестве основного элемента для EDM SIT.
  • Если в содержимом должно быть обнаружено несколько сочетаний различных полей в таблице конфиденциальных данных, определите столбцы, которые являются общими для большинства таких сочетаний, и назначьте их в качестве основных элементов. Обозначают сочетания других полей в качестве дополнительных элементов.
  • Если столбец, который вы хотите использовать в качестве основного элемента, не соответствует обнаруживаемому шаблону, например any text string или следует обнаруживаемым шаблонам, которые будут присутствовать где-то в большом проценте документов или сообщений электронной почты, выберите другие, лучше структурированные столбцы в качестве основных элементов.

Например, если у вас есть столбцы full name, date of birth, account numberи Social Security Number, даже если имена и фамилии являются общими для различных сочетаний данных, которые необходимо обнаружить, такие строки не соответствуют шаблонам, которые легко идентифицируются и могут быть трудно определить как тип конфиденциальной информации. Для этого есть ряд причин.

  • Некоторые имена могут не начинаться с символа верхнего регистра
  • некоторые могут быть сформированы двумя, тремя или более словами или строками
  • некоторые могут содержать числа или другие символы, не относящиеся к алфавиту. Даты рождения можно определить легче, но, так как каждое электронное письмо и большинство документов будет содержать по крайней DateOfBirth мере одну дату, поле также не является хорошим кандидатом. Вместо этого используйте такие поля, как номера социального страхования и номера счетов, которые являются хорошими кандидатами для основных полей.

Примеры шаблонов файлов

Чтобы упростить выбор основных полей, мы собрали несколько примеров шаблонов файлов для:

Это файлы с разделенными запятыми (.csv), которые имеют наиболее часто используемые значения в этих отраслевых вертикалях в качестве заголовков столбцов, а также искусственные значения, созданные Корпорацией Майкрософт в строках. Используйте заголовки столбцов, чтобы определиться с основными полями. Рекомендуется экспортировать только необходимые исходные данные. Заголовки столбцов предлагают наиболее релевантные поля.

Сведения об использовании примеров шаблонов файлов см. в статье Использование примеров шаблонов файлов.

Сохранение конфиденциальных данных в формате.csv, TSV или разделенных по каналу

  1. Определите конфиденциальную информацию, которую нужно использовать. Экспортируйте данные в приложение, например Microsoft Excel, и сохраните файл в виде текстового файла. Файл можно сохранить в любом из следующих форматов: .csv (значения, разделенные запятыми), .tsv (значения, разделенные табуляциями) или ()(|разделенные по каналу) форматы. Формат TSV рекомендуется использовать в тех случаях, когда значения данных могут содержать запятые, например адреса улиц. Файл данных может содержать:

    • до 100 миллионов строк конфиденциальных данных;
    • до 32 столбцов (полей) на источник данных;
    • До 10 столбцов (полей), помеченных как доступные для поиска
  2. Структурировать конфиденциальные данные в .csv или TSV-файле таким образом, чтобы первая строка содержит имена полей, используемых для классификации на основе EDM. В файле могут быть такие имена полей, как "ssn", "birthdate", "firstname", "lastname". В названиях заголовков столбцов не должно быть пробелов и символов подчеркивания. Например, используемый в этой статье пример CSV-файла называется PatientRecords.csv, а его столбцы включают PatientID, MRN, LastName, FirstName, SSN и другие.

  3. Обратите внимание на формат полей конфиденциальных данных; в частности, поля, которые могут содержать запятые в своем содержимом. Например, адрес улицы, содержащий значение "Seattle, WA", будет проанализирован как два отдельных поля, если выбран формат .csv. Чтобы избежать этого, используйте формат .tsv или запятую, содержащую значения, двойными кавычками в таблице конфиденциальных данных. Если запятая, содержащая значения, также содержит пробелы, необходимо создать пользовательский sit, соответствующий соответствующему формату. Например, sit, который обнаруживает многословную строку с запятыми и пробелами.

Следующее действие

или

См. также