Повышение точности классификатора

Классификаторы, такие как типы конфиденциальной информации (SIT) и обучаемые классификаторы, используются в различных типах политик для идентификации конфиденциальной информации. Как и большинство таких моделей, иногда они определяют элемент как конфиденциальный, который не является. Кроме того, они могут не идентифицировать элемент как конфиденциальный, когда он на самом деле. Они называются ложноположительными и ложноотрицательных.

В этой статье показано, как убедиться, что элементы, сопоставленные классификатором, являются истинными положительными ( совпадением) или ложноположительными (не совпадением), и предоставить обратную связь о/совпадении . Вы можете использовать этот отзыв, чтобы настроить классификаторы для повышения точности. Вы также можете отправить в корпорацию Майкрософт отредактированные версии документа, а также отзыв " Соответствие, не соответствие ", если вы хотите повысить точность классификаторов, которые предоставляются корпорацией Майкрософт.

Интерфейсы Match, Not a match и Contextual Summary доступны в следующих интерфейсах:

  • Обозреватель содержимого — для сайтов SharePoint, сайтов OneDrive
  • Страница сопоставления типов конфиденциальной информации — для сайтов SharePoint и сайтов OneDrive
  • Страница "Подходящие элементы с классификатором" — для сайтов SharePoint и сайтов OneDrive
  • Защита от потери данных Microsoft Purview страница оповещений (DLP) — для сайтов SharePoint, OneDrive и сообщений электронной почты в Exchange
  • Страница оповещений Microsoft Threat Protection (MTP) — для сайтов SharePoint, сайтов OneDrive и электронной почты в Exchange

Интерфейс контекстной сводки доступен в следующих приложениях:

  • Защита информации Microsoft Purview (MIP) Автоматическое присвоение меток симуляционным элементам— для сайтов SharePoint, сайтов OneDrive

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Сфера применения

Классификатор Контекстная сводка Панель отредактированного предварительного просмотра Соответствие и не совпадение
СИДЕТЬ Да Да Да
Настраиваемый SIT Да Нет Да
По отпечаткам пальцев SIT Нет Нет Да
Точное соответствие данных SIT Нет* Нет Нет
Именованные сущности Нет* Нет Нет
Проверка учетных данных Нет Нет Нет
Встроенные обучаемые классификаторы Да** Да Да
Настраиваемый обучаемый классификатор Нет Нет Да

* Эти классификаторы поддерживаются в совпадающих элементах имитации автоматической маркировки MIP для сайтов SharePoint и OneDrive.

** Список встроенных обучаемых классификаторов , поддерживающих контекстную сводку.

Важно!

Отзывы о совпадении и контекстные сводки поддерживают элементы в: сайты SharePoint & сайты OneDrive для Обозреватель содержимого, тип конфиденциальной информации и обучаемый классификатор сопоставленных элементов, оповещения DLP и оповещения MTP. Сообщения электронной почты в Exchange — для оповещений DLP и оповещений MTP. Контекстно-сводный интерфейс поддерживает элементы на сайтах SharePoint и сайтах OneDrive для имитации MIP-сопоставленных элементов.

Лицензирование и подписки

Сведения о соответствующем лицензировании и подписках см. в разделе Требования к лицензированию для аналитики классификации данных: Обзор содержимого & действий Обозреватель.

Известные ограничения

  • Контекстная сводка отображает только ограниченное количество совпадений в любом элементе, а не все совпадения.
  • Контекстная сводка и взаимодействие с отзывами доступны только для элементов, созданных или обновленных после включения обратной связи для клиента. Элементы, классифицированные до включения функции, могут не иметь контекстной сводки и отзывов.

Оценка точности соответствия и предоставление отзывов

Контекстно-сводный интерфейс, в котором вы указываете, является ли соответствующий элемент истинным положительным (Match) или ложноположительным (Не совпадением), аналогичен во всех местах, где он отображается.

Важно!

Необходимо уже развернуть политики защиты от потери данных, использующие sit или обучаемые классификаторы для сайтов OneDrive, сайтов SharePoint или почтовых ящиков Exchange. Кроме того, необходимо, чтобы все элементы отображались на странице контекстной сводки .

Использование Обозреватель содержимого

В этом примере показано, как использовать вкладку Контекстная сводка для отправки отзывов.

  1. Откройте страницуобозревателясодержимого классификации>Портал соответствия требованиям Microsoft Purview> Data.
  2. Введите имя обучаемого классификатора SIT или обучаемого классификатора, для которого вы хотите проверка совпадения, в поле Фильтровать по меткам, типам сведений или категориям.
  3. Выберите SIT.
  4. Выберите расположение и убедитесь, что в столбце Файлы есть ненулевое значение. (Единственными поддерживаемыми расположениями являются SharePoint и OneDrive.)
  5. Откройте папку и выберите документ.
  6. Щелкните ссылку в столбце Тип конфиденциальной информации для документа, чтобы узнать, какие siT соответствуют элементу и уровень достоверности.
  7. Нажмите кнопку Закрыть.
  8. Откройте документ и выберите вкладку Контекстная сводка .
  9. Просмотрите элемент и убедитесь, что он соответствует.
  10. Если это совпадение, нажмите кнопку Закрыть. Ты закончил.
  11. Если это не совпадение, выберите Не совпадение.
  12. Если вы совершили ошибку и выбрали неправильный вариант, нажмите кнопку Снять отзыв рядом с полем Закрыть. При этом элемент возвращается в состояние Не соответствует/совпадению .
  13. Просмотрите элемент и отредактуйте или не редактуйте любой текст.
  14. Нажмите кнопку Закрыть.

Страница "Использование соответствующих типов конфиденциальной информации"

Вы можете получить доступ к тем же механизмам обратной связи на странице Типы конфиденциальной информации .

  1. Откройте Портал соответствия требованиям Microsoft Purview и перейдите в разделКлассификаторы классификации>>данныхТипы конфиденциальной информации.
  2. В поле Поиск введите имя sit, точность которого требуется проверка.
  3. Откройте SIT. Откроется вкладка Обзор . Здесь можно увидеть количество соответствующих элементов, количество элементов, которые не соответствуют, а также количество элементов с отзывом.
  4. Перейдите на вкладку Совпадаемые элементы .
  5. Откройте папку и выберите документ. Здесь поддерживаются только SharePoint и OneDrive. Убедитесь, что в столбце Файлы есть ненулевое значение.
  6. Щелкните ссылку в столбце Тип конфиденциальной информации для элемента, чтобы узнать, какие siT соответствуют элементу и уровень достоверности.
  7. Нажмите кнопку Закрыть.
  8. Откройте документ и перейдите на вкладку Контекстная сводка .
  9. Просмотрите элемент и убедитесь, что он соответствует.
  10. Если это совпадение, нажмите кнопку Сопоставить , а затем — Закрыть.
  11. Если это не совпадение, выберите **Not a Match ****
  12. Если вы допустили ошибку и выбрали неправильный вариант, нажмите кнопку Снять отзыв рядом с полем Закрыть. При этом элемент возвращается в состояние Не соответствует/совпадению .
  13. Нажмите кнопку Закрыть.

Страница "Использование обучаемого классификатора сопоставленных элементов"

  1. Откройте Портал соответствия требованиям Microsoft Purview и перейдите в разделКлассификаторы классификации>>данныхОбучаемые классификаторы.
  2. Выберите обучаемый классификатор, точность которого требуется проверка.
  3. Откройте обучаемый классификатор. Откроется вкладка Обзор . Здесь можно увидеть количество соответствующих элементов, количество элементов, которые не соответствуют, а также количество элементов с отзывом.
  4. Перейдите на вкладку Совпадаемые элементы .
  5. Откройте папку и откройте документ. Здесь поддерживаются только SharePoint и OneDrive. Убедитесь, что в столбце Файлы есть ненулевое значение.
  6. Откройте документ и перейдите на вкладку Контекстная сводка .
  7. Просмотрите элемент и убедитесь, что он соответствует.
  8. Если это совпадение, нажмите кнопку Совпадение , а затем нажмите кнопку Закрыть.
  9. Если это не совпадение, выберите **Not a Match ****
  10. Если вы допустили ошибку и выбрали неправильный вариант, нажмите кнопку Снять отзыв рядом с полем Закрыть. При этом элемент возвращается в состояние Не соответствует/совпадению .
  11. Нажмите кнопку Закрыть.

Страница "Использование оповещений о защите от потери данных"

  1. Откройте Портал соответствия требованиям Microsoft Purview и перейдите на страницуОповещения о защите > от потери данных.
  2. Выберите оповещение.
  3. Выберите Просмотреть сведения.
  4. Перейдите на вкладку События .
  5. Разверните вкладку Сведения .
  6. Просмотрите элемент и убедитесь, что он соответствует.
  7. Выберите Действия.
  8. Если это совпадение, закройте окно. Ты закончил.
  9. Если это не совпадение, выберите Действия , а затем — Не совпадение.
  10. Просмотрите элемент и отредактуйте или не редактуйте любой текст.
  11. Закройте окно.

Использование обратной связи для настройки классификаторов

Если ваши SIT или обучаемые классификаторы возвращают слишком много ложноположительных результатов на основе обратной связи, попробуйте некоторые из этих вариантов, чтобы уточнить их и повысить их точность.

Обучаемые классификаторы

Переобучение пользовательских классификаторов больше не поддерживается. Если вам нужно повысить точность созданных обучаемых классификаторов, удалите классификатор и начните с более крупных наборов выборок. Дополнительные сведения см. в статье Начало работы с обучаемыми классификаторами.

Типы конфиденциальной информации

  • Увеличьте пороговые значения типов конфиденциальной информации, обнаруженных для определения серьезности. Можно использовать разные пороговые значения для отдельных классификаторов.

  • Общие сведения об уровнях доверия и их определении. Попробуйте использовать низкую достоверность с высоким числом экземпляров или более высокий уровень достоверности с низким числом экземпляров.

  • Клонируйте и измените встроенные SIT для включения других условий, таких как наличие ключевых слов, более строгое соответствие значений или более строгие требования к форматированию.

  • Измените настраиваемый sit, чтобы исключить известные префиксы, суффиксы или шаблоны. Например, настраиваемая функция SIT для обнаружения номеров телефонов может активироваться для каждого сообщения электронной почты, если ваши подписи электронной почты или заголовки документов содержат номера телефонов. Исключение последовательностей телефонных номеров вашей организации из пользовательского sit может предотвратить активацию правила для каждого сообщения электронной почты или документа.

  • Включите в качестве условий дополнительные библиотеки SIT на основе словаря, чтобы сузить совпадения до тех элементов, в которых рассказывается о соответствующих статьях. Например, правило для сопоставления диагностика пациента может быть улучшено, если требуется наличие таких слов, как диагностика, диагноз, состояние, симптом и пациент.

  • Для именованных сущностей, таких как Все полные имена, лучше задать более высокое пороговое значение числа экземпляров, например 10 или 50. Если имена пользователей и номера социального страхования (SSN) обнаруживаются вместе, скорее всего, это действительно SSN, и мы уменьшаем риск того, что политика не активируется, так как обнаружено слишком мало SSN.