Obtener más información acerca de los tipos de información confidencial

La identificación y clasificación de elementos confidenciales que están bajo el control de su organización es el primer paso en la materia de Information Protection. Microsoft Purview proporciona tres formas de identificar elementos para que se puedan clasificar:

  • manualmente, por los usuarios
  • a través del reconocimiento automatizado de patrones, como con los tipos de información confidencial
  • a través del aprendizaje automático

Los tipos de información confidencial (SIT) son clasificadores basados en patrones. Detectan información confidencial, como el seguro social, la tarjeta de crédito o los números de cuenta bancaria para identificar elementos confidenciales, consulte Definiciones de entidades de tipo de información confidencial para obtener una lista completa de todos los SIT.

Microsoft proporciona un gran número de SIT preconfigurados o puede crear los suyos propios.

Sugerencia

Si no es cliente de E5, use la prueba de 90 días de soluciones de Microsoft Purview para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de los datos. Comience ahora en el centro de pruebas del portal de cumplimiento de Microsoft Purview. Obtenga más información sobre términos de suscripción y prueba.

Los tipos de información confidencial se usan en

Categorías de tipos de información confidencial

Tipos de información confidencial integrados

Microsoft creó estos SIT y se muestran en la consola de cumplimiento de forma predeterminada. Estos SIT no se pueden editar, pero puede usarlos como plantillas copiándolos para crear tipos de información confidencial personalizados. Consulte Definiciones de entidades de tipo información confidencial para obtener una lista completa de todos los SIT.

Tipos de información confidencial de entidades con nombre

Los SIT de entidad con nombre también se muestran en la consola de cumplimiento de forma predeterminada. Detectan nombres de personas, direcciones físicas y términos y condiciones médicos. No se pueden editar ni copiar. Para obtener más información, consulte Más información sobre las entidades con nombre.

Los SIT de entidad con nombre se incluyen en dos tipos:

un-bundled

Estos SIT de entidad con nombre tienen un enfoque más estrecho, como un único país o región, o una única clase de términos. Úselas cuando necesite una directiva de prevención de pérdida de datos (DLP) con un ámbito de detección más restringido. Consulte Ejemplos de SIT de entidades con nombre.

Liado

Los SIT de entidad con nombre agrupados detectan todas las coincidencias posibles en una clase, como Todas las direcciones físicas. Úselos como criterios generales en las directivas DLP para detectar elementos confidenciales. Consulte Ejemplos de SIT de entidades con nombre.

Tipos de información confidencial personalizada

Si los tipos de información confidencial preconfigurados no satisfacen sus necesidades, puede crear sus propios tipos de información confidencial personalizados que defina por completo o copiar uno de los integrados y modificarlo. Para obtener más información, vea

Create un tipo de información confidencial personalizada en el portal de cumplimiento Microsoft Purview.

Coincidencia exacta de datos con tipos de información confidencial

Todos los SIT basados en coincidencias de datos exactas (EDM) se crean desde cero. Se usan para detectar elementos que tienen valores exactos, que se definen en una base de datos de información confidencial. Para obtener más información, consulte Información sobre los tipos de información confidencial basados en coincidencias exactas de datos.

Partes fundamentales de un tipo de información confidencial

Cada entidad de tipo de información confidencial (SIT) consta de los siguientes campos:

  • Nombre: Indica cómo se hace referencia al tipo de información confidencial.
  • Descripción: Explicación de lo que busca el tipo de información confidencial.
  • Patrón: Define lo que detecta una SIT. Consta de los siguientes componentes: elemento principal, elementos auxiliares, nivel de confianza y proximidad.

En la tabla siguiente se describe cada componente de los patrones utilizados para definir tipos de información confidencial.

Componente de patrón Descripción
Elemento principal Elemento principal que busca el tipo de información confidencial. Puede ser una expresión regular con o sin una validación de suma de comprobación, una lista de palabras clave, un diccionario de palabras clave o una función. Cada uno de estos tipos de elementos se puede seleccionar en la lista de SIT existentes o puede ser definido por un usuario con permisos de administrador. Una vez definido un elemento, aparece en la lista de elementos existentes, junto con los que se incluyen integrados.
Elemento auxiliar Elemento que actúa como evidencia corroborativa. Cuando se incluyen, los elementos auxiliares ayudan a aumentar el nivel de confianza con respecto a la precisión de las coincidencias detectadas. Por ejemplo, si el elemento principal se define como SSN (compuesto por nueve dígitos) y la palabra clave Número de seguridad social (SSN) se usa como elemento auxiliar cuando se encuentra cerca de SSN, la confianza de que la SSN detectada es realmente un número de Seguridad Social es mayor que si la palabra clave Número de seguridad social (SSN) no está presente.

Un elemento auxiliar puede ser una expresión regular (con o sin validación de suma de comprobación), una lista de palabras clave o un diccionario de palabras clave.
Nivel de confianza Hay tres niveles de confianza con respecto a las coincidencias detectadas: alta, media y baja. El nivel de confianza refleja la cantidad de pruebas auxiliares que se detectan junto con el elemento principal. Cuantos más pruebas auxiliares contenga un elemento detectado, mayor será la confianza en que un elemento coincidente contiene la información confidencial que está buscando. Para obtener más información sobre los niveles de confianza, vea el vídeo que se incluye más adelante en este artículo.
Proximidad Especifica la proximidad de un elemento auxiliar a un elemento principal, en términos del número de caracteres entre ellos.

Descripción de la proximidad

En el diagrama siguiente se muestra cómo funciona la detección de coincidencias con respecto a la proximidad. En este ejemplo, el elemento principal es el SSN campo y la definición sit requiere que cada instancia de un SSN valor esté dentro de una proximidad especificada a al menos uno de los siguientes elementos:

  • AccountNumber
  • Name
  • DateOfBirth

En el diagrama, vemos que los datos que se comprueban incluyen tres instancias diferentes del SSN campo: SSN1, SSN2, SSN3y SSN4.

Diagrama de evidencia corroborativa y ventana de proximidad .

Para comprender cómo funciona la proximidad, echemos un vistazo a algunos criterios de detección de ejemplo. Aquí, querían detectar números de seguridad social de nueve dígitos. Los criterios de detección requieren que se encuentre una expresión regular de nueve dígitos (elemento principal) junto con pruebas auxiliares (entre los AccountNumbercampos , Namey DateOfBirth ) que aparezcan dentro de 250 caracteres ( proximidad).

Como se muestra en el diagrama, solo los elementos SSN1 principales y SSN4 cumplen los criterios de detección que se acaban de describir. Vamos a echar un vistazo.

  • En el caso de , el DateOfBirth valor está dentro de SSN1la ventana de proximidad especificada de 250 caracteres, por lo que se detecta una coincidencia.
  • En los casos de SSN2 y SSN3, ninguno de los elementos auxiliares se produce dentro de los 250 caracteres del elemento principal, por lo que esos valores no se detectan como una coincidencia. Sin embargo, al examinar la ventana SSN2 de proximidad del diagrama, puede preguntar: ¿Por qué no hay una coincidencia para SSN2? ¿La ventana de SSN2 proximidad no se extiende al Name elemento? Esta es una buena pregunta. La respuesta es: No del todo. Aunque la ventana de proximidad se extiende alName valor, no incluye todo el valor, por lo que el patrón no coincide.
  • Por último, en el caso de SSN4, hay dos elementos auxiliares dentro de la ventana de proximidad, ambos Name y DateOfBirth, por lo que este patrón también coincide.

Obtenga más información sobre los niveles de confianza en este breve vídeo.

Ejemplo de tipo de información confidencial

Número de identidad nacional (DNI) de Argentina

Formato

Ocho dígitos separados por puntos

Patrón

Ocho dígitos:

  • dos dígitos
  • un punto
  • tres dígitos
  • un punto
  • tres dígitos
Suma de comprobación

No

Definición

Una directiva DLP tiene confianza media en que ha detectado este tipo de información confidencial si, dentro de una proximidad de 250 caracteres:

  • La expresión regular Regex_argentina_national_id encuentra contenido que coincide con el patrón.
  • Se encuentra una palabra clave de Keyword_argentina_national_id.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>
Palabras clave
Keyword_argentina_national_id
  • Número de identidad nacional de Argentina
  • Identidad
  • Tarjeta de identidad nacional de identificación
  • DNI
  • Registro Nacional de Personas (NIC)
  • Documento Nacional de Identidad
  • Registro nacional de las personas
  • Identidad
  • Identificación

Más información sobre los niveles de confianza

En una definición de entidad de tipo de información confidencial, el nivel de confianza refleja cuánta evidencia auxiliar se detecta además del elemento principal. Cuantos más pruebas auxiliares contenga un elemento, mayor será la confianza en que un elemento coincidente contiene la información confidencial que está buscando. Por ejemplo, las coincidencias con un nivel de confianza alto contienen más pruebas auxiliares cercanas al elemento principal, mientras que las coincidencias con un nivel de confianza bajo contendrían poca o ninguna evidencia auxiliar en proximidad.

Un nivel de confianza alto devuelve el menor número de falsos positivos, pero podría dar lugar a más falsos negativos. Los niveles de confianza bajo o medio devuelven más falsos positivos, pero pocos a cero falsos negativos.

  • baja confianza: los elementos coincidentes contienen el menor número de falsos negativos, pero los más falsos positivos. La confianza baja devuelve todas las coincidencias de confianza baja, media y alta. El nivel de confianza bajo tiene un valor de 65.
  • confianza media: los elementos coincidentes contienen un número promedio de falsos positivos y falsos negativos. La confianza media devuelve todas las coincidencias de confianza media y alta. El nivel de confianza medio tiene un valor de 75.
  • alta confianza: los elementos coincidentes contienen el menor número de falsos positivos, pero los más falsos negativos. La confianza alta solo devuelve coincidencias de confianza alta y tiene un valor de 85.

Debe usar patrones de alto nivel de confianza con recuentos bajos, por ejemplo, de cinco a 10, y patrones de confianza baja con recuentos más altos, por ejemplo, 20 o más.

Nota:

Si tiene directivas existentes o tipos de información confidencial (SIT) personalizados definidos mediante niveles de confianza basados en números (también conocidos como precisión), se asignarán automáticamente a los tres niveles de confianza discretos; confianza baja, confianza media y confianza alta en la interfaz de usuario de Security @ Compliance Center.

  • Todas las directivas con precisión mínima o patrones SIT personalizados con niveles de confianza de entre 76 y 100 se asignarán a una alta confianza.
  • Todas las directivas con precisión mínima o patrones SIT personalizados con niveles de confianza de entre 66 y 75 se asignarán a confianza media.
  • Todas las directivas con precisión mínima o patrones SIT personalizados con niveles de confianza inferiores o iguales a 65 se asignarán a una confianza baja.

Crear tipos de información confidencial personalizados

Puede elegir entre varias opciones para crear tipos de información confidencial personalizados en el portal de cumplimiento.

Nota:

Los niveles de confianza mejorados están disponibles para su uso inmediato en los servicios de prevención de pérdida de datos de Microsoft Purview, protección de la información, cumplimiento de comunicaciones, administración del ciclo de vida de datos y administración de registros. Information Protection ahora admite idiomas de juego de caracteres de doble byte para:

  • Chino (simplificado)
  • Chino (tradicional)
  • Coreano
  • Japonés

Este soporte está disponible para tipos de información confidencial. Para obtener más información, consulte La compatibilidad con la protección de la información para las notas de la versión de los conjuntos de caracteres de doble byte.

Sugerencia

Para detectar patrones que contengan caracteres chinos/japoneses y caracteres de un solo byte o para detectar patrones que contengan chino/japonés e inglés, defina dos variantes de la palabra clave o regex.

  • Por ejemplo, para detectar una palabra clave como "机密的document", utilice dos variantes de la palabra clave; una con un espacio entre el texto japonés y el inglés y otra sin espacio entre el texto japonés y el inglés. Por lo tanto, las palabras clave que deben agregarse en el SIT deben ser "机密的document" y "机密的document". Del mismo modo, para detectar la frase "東京オリンピック2020", se deben utilizar dos variantes: "東京オリンピック 2020" y "東京オリンピック2020"".

Junto con caracteres de bytes chino, japonés o doble, si la lista de palabras clave o frases también contiene palabras no chinas o japonesas (por ejemplo, solo inglés), debe crear dos listas de diccionarios y palabras clave. Una para palabras clave que contienen caracteres de byte chino, japonés o doble y otra para palabras clave solo en inglés.

  • Por ejemplo, si desea crear una palabra clave dictionary/list con tres frases "Extremadamente confidencial", "機密性が高い" y "机密的document", debe crear dos listas de palabras clave.
    1. Extremadamente confidencial
    2. 機密性が高い, 机密的document y 机密的 document

Al crear un regex con un guion de doble byte o un punto de byte doble, asegúrese de escapar ambos caracteres como si se escapara un guion o un punto en una expresión regular. Aquí hay un ejemplo de regex como referencia:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Se recomienda usar la coincidencia de cadena en lugar de la coincidencia de palabras en una lista de palabras clave.

Prueba del tipo de información confidencial

Puede probar sit mediante la carga de un archivo de ejemplo. Los resultados de la prueba muestran el número de coincidencias para cada nivel de confianza. Puede probar SIT integrados, SIT personalizados, clasificadores entrenables y coincidencia exacta de datos.

Probar tipo de información confidencial integrada y personalizada

Pruebe el tipo de información confidencial de coincidencia exacta de datos.

Proporcionar comentarios de coincidencia o no de precisión de coincidencia en tipos de información confidencial

Puede ver el número de coincidencias que tiene una SIT en Tipos de información confidencial y explorador de contenido. También puede proporcionar comentarios sobre si un elemento es realmente una coincidencia o no mediante el mecanismo de comentarios Match, Not a Match y usar esos comentarios para ajustar los SIT. Para obtener más información, consulte Aumento de la precisión del clasificador.

Para obtener más información

Para obtener información sobre cómo usar tipos de información confidencial para cumplir con las regulaciones de privacidad de datos, consulte Implementación de la protección de la información para las regulaciones de privacidad de datos con Microsoft 365 (aka.ms/m365dataprivacy).