Ulteriori informazioni sui tipi di informazioni riservate

Identificare e classificare gli elementi sensibili sotto il controllo dell'organizzazione è il primo passaggio della disciplina Information Protection. Microsoft Purview offre tre modi per identificare gli elementi in modo che possano essere classificati:

  • manualmente, dagli utenti
  • tramite il riconoscimento automatico dei modelli, come con i tipi di informazioni sensibili
  • tramite Machine Learning

I tipi di informazioni sensibili (SIT) sono classificatori basati su pattern. Rilevano informazioni sensibili come i numeri di previdenza sociale, carta di credito o conto bancario per identificare gli elementi sensibili. Per un elenco completo di tutti i SIT, vedere Definizioni di entità del tipo di informazioni sensibili .

Microsoft offre un numero elevato di SIT preconfigurati oppure è possibile crearne uno personalizzato.

Consiglio

Se non si è un cliente E5, usare la versione di valutazione delle soluzioni Microsoft Purview di 90 giorni per esplorare in che modo funzionalità aggiuntive di Purview possono aiutare l'organizzazione a gestire le esigenze di sicurezza e conformità dei dati. Iniziare ora dall'hub delle versioni di valutazione Portale di conformità di Microsoft Purview. Informazioni dettagliate sull'iscrizione e le condizioni di valutazione.

I tipi di informazioni riservate vengono usati in

Categorie di tipi di informazioni riservate

Tipi di informazioni sensibili predefiniti

Microsoft ha creato questi SIT e vengono visualizzati nella console di conformità per impostazione predefinita. Questi SIT non possono essere modificati, ma è possibile usarli come modelli copiandoli per creare tipi di informazioni sensibili personalizzati. Vedere Definizioni di entità del tipo di informazioni riservate per un elenco completo di tutti i SIT.

Tipi di informazioni sensibili alle entità denominate

I SIT delle entità denominate vengono visualizzati anche nella console di conformità per impostazione predefinita. Rilevano nomi di persona, indirizzi fisici e termini e condizioni mediche. Non possono essere modificati o copiati. Per altre informazioni, vedere Informazioni sulle entità denominate.

I SIT di entità denominate sono disponibili in due tipi:

non in bundle

Questi SIT di entità denominate hanno uno stato attivo più ristretto, ad esempio un singolo paese o area geografica o una singola classe di termini. Usarli quando è necessario un criterio di prevenzione della perdita dei dati (DLP) con un ambito di rilevamento più ristretto. Vedere Esempi di SIT di entità denominate.

Impacchettato

I SIT di entità denominate in bundle rilevano tutte le possibili corrispondenze in una classe, ad esempio Tutti gli indirizzi fisici. Usarli come criteri generali nei criteri DLP per rilevare gli elementi sensibili. Vedere Esempi di SIT di entità denominate.

Tipi di informazioni sensibili personalizzati

Se i tipi di informazioni sensibili preconfigurati non soddisfano le proprie esigenze, è possibile creare tipi di informazioni sensibili personalizzati che si definiscono completamente oppure copiare uno dei tipi predefiniti e modificarli. Per ulteriori informazioni, vedere

Create un tipo di informazioni riservate personalizzato nel Portale di conformità di Microsoft Purview.

I dati esatti corrispondono ai tipi di informazioni sensibili

Tutti i SIT basati sulla corrispondenza dei dati esatti (EDM) vengono creati da zero. Vengono usate per rilevare elementi con valori esatti, definiti in un database di informazioni riservate. Per altre informazioni, vedere Informazioni sui tipi di informazioni sensibili basati sulle corrispondenze esatte dei dati.

Parti fondamentali di un tipo di informazioni sensibili

Ogni entità del tipo di informazioni sensibili (SIT) è costituita dai campi seguenti:

  • Nome: Indica il modo in cui viene fatto riferimento al tipo di informazioni riservate.
  • Descrizione: Spiegazione di ciò che il tipo di informazioni riservate sta cercando.
  • Modello: Definisce ciò che un SIT rileva. È costituito dai componenti seguenti: elemento primario, elementi di supporto, livello di confidenza e prossimità.

La tabella seguente descrive ogni componente dei modelli usati per definire i tipi di informazioni sensibili.

Componente modello Descrizione
Elemento primario Elemento principale cercato dal tipo di informazioni riservate. Può essere un'espressione regolare con o senza convalida del checksum, un elenco di parole chiave, un dizionario di parole chiave o una funzione. Ognuno di questi tipi di elementi può essere selezionato dall'elenco dei SIT esistenti o può essere definito in modo personalizzato da un utente con autorizzazioni di amministratore. Una volta definito, un elemento viene visualizzato nell'elenco degli elementi esistenti, insieme a quelli incorporati.
Elemento di supporto Elemento che funge da prova corroborativa. Se inclusi, gli elementi di supporto consentono di aumentare il livello di attendibilità rispetto all'accuratezza delle corrispondenze rilevate. Ad esempio, se l'elemento primario è definito come SSN (composto da nove cifre) e la parola chiave Social Security Number (SSN) viene usata come elemento di supporto quando viene trovata in prossimità di SSN, la certezza che il SSN rilevato sia effettivamente un numero di previdenza sociale è superiore a quello che non è presente la parola chiave SSN (Social Security Number).

Un elemento di supporto può essere un'espressione regolare (con o senza convalida checksum), un elenco di parole chiave o un dizionario di parole chiave.
Livello di sicurezza Esistono tre livelli di confidenza per quanto riguarda le corrispondenze rilevate: alta, media e bassa. Il livello di attendibilità riflette la quantità di prove di supporto rilevate insieme all'elemento primario. Maggiore è l'evidenza di supporto che contiene un elemento rilevato, maggiore è la probabilità che un elemento corrispondente contenga le informazioni sensibili che stai cercando. Per altre informazioni sui livelli di attendibilità, vedere il video incluso più avanti in questo articolo.
Prossimità Specifica la vicinanza di un elemento di supporto a un elemento primario, in termini di numero di caratteri tra di essi.

Informazioni sulla prossimità

Il diagramma seguente mostra come funziona il rilevamento delle corrispondenze rispetto alla prossimità. In questo esempio, l'elemento primario è il SSN campo e la definizione SIT richiede che ogni istanza di un SSN valore sia all'interno di una prossimità specificata ad almeno uno degli elementi seguenti:

  • AccountNumber
  • Name
  • DateOfBirth

Nel diagramma si nota che i dati controllati includono tre diverse istanze del SSN campo: SSN1, SSN2, SSN3e SSN4.

Diagramma dell'evidenza corroborativa e della finestra di prossimità .

Per comprendere il funzionamento della prossimità, si inizierà esaminando alcuni criteri di rilevamento di esempio. In questo caso, si vuole rilevare i numeri di previdenza sociale a nove cifre. I criteri di rilevamento richiedono che venga trovata un'espressione regolare a nove cifre (elemento primario) in combinazione con l'evidenza di supporto (tra i AccountNumbercampi , Namee DateOfBirth ) che viene visualizzata entro 250 caratteri ( prossimità).

Come illustrato nel diagramma, solo gli elementi SSN1 primari e SSN4 soddisfano i criteri di rilevamento appena descritti. Contenuto della sezione:

  • Nel caso di SSN1, il DateOfBirth valore si trova all'interno della finestra di prossimità specificata di 250 caratteri, quindi viene rilevata una corrispondenza.
  • In entrambi i casi di SSN2 e SSN3, nessuno degli elementi di supporto si verifica entro 250 caratteri dell'elemento primario, quindi tali valori non vengono rilevati come corrispondenza. Tuttavia, quando si esamina la finestra di prossimità per SSN2 nel diagramma, si potrebbe chiedere: Perché non c'è una corrispondenza per SSN2? La finestra di prossimità non SSN2 si estende all'elemento Name ? Questa è una buona domanda. La risposta è: Non proprio. Anche se la finestra di prossimità si estende nelName valore, non include l'intero valore, quindi il modello non corrisponde.
  • Infine, nel caso di SSN4, sono presenti due elementi di supporto all'interno della finestra di prossimità, entrambi Name e DateOfBirth, quindi anche questo modello corrisponde.

Altre informazioni sui livelli di attendibilità sono disponibili in questo breve video.

Esempio di tipo di informazioni riservate

Numero di carta di identità (DNI) argentino

Formato

Otto cifre separate da spazi

Criterio

Otto cifre

  • due cifre
  • un periodo
  • tre cifre
  • un periodo
  • tre cifre
Checksum

No

Definizione

Un criterio DLP ha una media probabilità di aver rilevato questo tipo di informazioni riservate se, entro una prossimità di 250 caratteri:

  • L'espressione regolare Regex_argentina_national_id trova il contenuto corrispondente al modello.
  • Viene trovata una parola chiave da Keyword_argentina_national_id.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>
Parole chiave
Keyword_argentina_national_id
  • Argentina - Numero di identità nazionale
  • Identità
  • Carta d'identità nazionale di identificazione
  • DNI
  • Registro nazionale delle persone (NIC)
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

Maggiori informazioni sui livelli di confidenza

In una definizione di entità del tipo di informazioni riservate, il livello di attendibilità riflette la quantità di prove di supporto rilevate oltre all'elemento primario. Maggiore è l'evidenza di supporto che contiene un elemento, maggiore è la probabilità che un elemento corrispondente contenga le informazioni sensibili che stai cercando. Ad esempio, le corrispondenze con un livello di confidenza elevato contengono più prove di supporto in prossimità dell'elemento primario, mentre le corrispondenze con un livello di confidenza basso contengono poche o nessuna evidenza di supporto in prossimità.

Un livello di confidenza elevato restituisce il minor numero di falsi positivi, ma potrebbe causare più falsi negativi. I livelli di attendibilità bassa o media restituiscono più falsi positivi, ma da pochi a zero falsi negativi.

  • bassa attendibilità: gli elementi corrispondenti contengono il minor numero di falsi negativi, ma il maggior numero di falsi positivi. La bassa confidenza restituisce tutte le corrispondenze di attendibilità bassa, media e alta. Il livello di confidenza basso ha un valore pari a 65.
  • attendibilità media: gli elementi corrispondenti contengono un numero medio di falsi positivi e falsi negativi. La confidenza media restituisce tutte le corrispondenze di attendibilità medie e elevate. Il livello di attendibilità medio ha un valore pari a 75.
  • confidenza elevata: gli elementi corrispondenti contengono il minor numero di falsi positivi, ma il maggior numero di falsi negativi. L'attendibilità elevata restituisce solo corrispondenze con attendibilità elevata e ha un valore pari a 85.

È consigliabile usare modelli a livello di attendibilità elevata con conteggi bassi, ad esempio da cinque a 10, e modelli di confidenza bassa con conteggi più elevati, ad esempio 20 o più.

Nota

Se sono presenti criteri o tipi di informazioni sensibili personalizzati (SIT) definiti usando livelli di attendibilità basati sui numeri (noti anche come accuratezza), verranno mappati automaticamente ai tre livelli di confidenza discreta; confidenza bassa, confidenza media e attendibilità elevata nell'interfaccia utente security @ Compliance Center.

  • Tutti i criteri con accuratezza minima o modelli SIT personalizzati con livelli di attendibilità compresi tra 76 e 100 verranno mappati a un livello di attendibilità elevato.
  • Tutti i criteri con accuratezza minima o modelli SIT personalizzati con livelli di attendibilità compresi tra 66 e 75 verranno mappati a un livello di attendibilità medio.
  • Tutti i criteri con accuratezza minima o modelli SIT personalizzati con livelli di attendibilità inferiori o uguali a 65 verranno mappati a una bassa attendibilità.

Creazione dei tipi di informazioni sensibili personalizzati

È possibile scegliere tra diverse opzioni per creare tipi di informazioni sensibili personalizzati nel portale di conformità.

Nota

I livelli di attendibilità migliorati sono disponibili per l'uso immediato all'interno dei servizi di prevenzione della perdita dei dati di Microsoft Purview, protezione delle informazioni, conformità delle comunicazioni, gestione del ciclo di vita dei dati e gestione dei record. Information Protection supporta ora le lingue del set di caratteri a doppio byte per:

  • Cinese (semplificato)
  • Cinese (tradizionale)
  • Coreano
  • Giapponese

Il supporto è disponibile per i tipi di informazioni sensibili. Per altre informazioni, vedere Supporto della protezione delle informazioni per le note sulla versione dei set di caratteri a due byte.

Consiglio

Per rilevare modelli contenenti caratteri cinesi/giapponesi e caratteri a byte singolo o per rilevare modelli contenenti caratteri cinesi/giapponesi e inglesi, definire due varianti della parola chiave o dell'espressione regolare.

  • Ad esempio, per rilevare una parola chiave come "机密的document", usare due varianti della parola chiave: una con uno spazio tra il testo giapponese e quello inglese e un'altra senza spazio tra il testo giapponese e quello inglese. Quindi, le parole chiave da aggiungere nel SIT devono essere "机密的 document" e "机密的document". Analogamente, per rilevare la frase "東京オリンピック2020", devono essere usate due varianti: "東京オリンピック 2020" e "東京オリンピック2020".

Insieme ai caratteri cinese/giapponese/a byte doppio, se l'elenco di parole chiave/frasi contiene anche parole non cinesi/giapponesi (ad esempio, solo in inglese), è necessario creare due dizionari/elenchi di parole chiave. Una per le parole chiave contenenti caratteri cinese/giapponese/a byte doppio e un'altra per le parole chiave solo in inglese.

  • Ad esempio, se si vuole creare un dizionario/elenco di parole chiave con tre frasi "Altamente riservato", "機密性が的的" e "机密的document", è necessario creare due elenchi di parole chiave.
    1. Estremamente riservato
    2. 機密性が高い, 机密的documento e documento 机密的

Durante la creazione di un regex usando un trattino a doppio byte o un punto a byte doppio, assicurarsi di eseguire l'escape di entrambi i caratteri come un trattino o un punto in un regex. Di seguito è riportata un'espressione regolare di esempio per riferimento:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

È consigliabile usare la corrispondenza stringa anziché la corrispondenza di parole in un elenco di parole chiave.

Testare il tipo di informazioni riservate

È possibile testare sit caricando un file di esempio. I risultati del test mostrano il numero di corrispondenze per ogni livello di attendibilità. È possibile testare SIT predefiniti, SIT personalizzati, classificatori sottoponibili a training e corrispondenza esatta dei dati.

Testare il tipo di informazioni riservate predefinite e personalizzate

I dati esatti di test corrispondono al tipo di informazioni riservate.

Fornire un feedback sull'accuratezza delle corrispondenze o meno nei tipi di informazioni sensibili

È possibile visualizzare il numero di corrispondenze di un SIT in Tipi di informazioni sensibili ed Esplora contenuto. È anche possibile fornire commenti e suggerimenti sul fatto che un elemento sia effettivamente una corrispondenza o meno usando il meccanismo match, Not a Match feedback e usare tale feedback per ottimizzare i SIT. Per altre informazioni, vedere Aumentare l'accuratezza del classificatore.

Per ulteriori informazioni

Per informazioni su come usare i tipi di informazioni sensibili per rispettare le normative sulla privacy dei dati, vedere Distribuire la protezione delle informazioni per le normative sulla privacy dei dati con Microsoft 365 (aka.ms/m365dataprivacy).