Informazioni sulla codifica predittiva in eDiscovery (Premium) (anteprima)

Consiglio

eDiscovery (anteprima) è ora disponibile nel nuovo portale di Microsoft Purview. Per altre informazioni sull'uso della nuova esperienza di eDiscovery, vedere Informazioni su eDiscovery (anteprima).

Importante

La codifica predittiva è stata ritirata a partire dal 31 marzo 2024 e non è disponibile nei nuovi casi di eDiscovery. Per i casi esistenti con modelli di codifica predittiva sottoposti a training, è possibile continuare ad applicare filtri di punteggio esistenti per esaminare i set. Tuttavia, non è possibile creare o eseguire il training di nuovi modelli.

Il modulo di codifica predittiva in eDiscovery (Premium) usa le funzionalità intelligenti di Machine Learning per ridurre la quantità di contenuto da esaminare. La codifica predittiva consente di ridurre e ridurre grandi volumi di contenuto del caso a un set rilevante di elementi che è possibile classificare in ordine di priorità per la revisione. Questa operazione viene eseguita creando e eseguendo il training di modelli di codifica predittiva personalizzati che consentono di assegnare priorità alla revisione degli elementi più rilevanti in un set di revisione.

Il modulo di codifica predittiva è progettato per semplificare la complessità della gestione di un modello all'interno di un set di revisioni e fornire un approccio iterativo per il training del modello in modo da poter iniziare più rapidamente con le funzionalità di Machine Learning in eDiscovery (Premium). Per iniziare, è possibile creare un modello, etichettare solo 50 elementi come pertinenti o non pertinenti. Il sistema usa questo training per applicare i punteggi di stima a ogni elemento del set di revisione. In questo modo è possibile filtrare gli elementi in base al punteggio di stima, che consente di esaminare prima gli elementi più rilevanti (o non rilevanti). Se si vuole eseguire il training di modelli con accuratezza e velocità di richiamo più elevate, è possibile continuare a etichettare gli elementi nei turni di training successivi fino a quando il modello non si stabilizza.

Consiglio

Se non si è un cliente E5, usare la versione di valutazione delle soluzioni Microsoft Purview di 90 giorni per esplorare in che modo funzionalità aggiuntive di Purview possono aiutare l'organizzazione a gestire le esigenze di sicurezza e conformità dei dati. Iniziare ora dall'hub delle versioni di valutazione del portale di conformità di Microsoft Purview. Informazioni dettagliate sull'iscrizione e le condizioni di valutazione.

Flusso di lavoro di codifica predittiva

Ecco una panoramica e una descrizione di ogni flusso di lavoro di codifica predittiva di ogni passaggio. Per una descrizione più dettagliata dei concetti e della terminologia del processo di codifica predittiva, vedere Informazioni di riferimento sulla codifica predittiva.

Flusso di lavoro di codifica predittiva.

  1. Creare un nuovo modello di codifica predittiva nel set di revisione. Il primo passaggio consiste nel creare un nuovo modello di codifica predittiva nel set di revisione. Per creare un modello, è necessario avere almeno 2.000 elementi nel set di revisione. Dopo aver creato un modello, il sistema determinerà il numero di elementi da usare come set di controlli. Il set di controlli viene usato durante il processo di training per valutare i punteggi di stima assegnati dal modello agli elementi con l'etichettatura eseguita durante i turni di training. Le dimensioni del set di controlli si basano sul numero di elementi nel set di revisione e sul livello di attendibilità e sul margine dei valori di errore impostati durante la creazione del modello. Gli elementi nel set di controlli non cambiano mai e non sono identificabili per gli utenti.

    Per altre informazioni, vedere Creare un modello di codifica predittiva.

  2. Completare il primo round di training etichettando gli elementi come pertinenti o non pertinenti. Il passaggio successivo consiste nel eseguire il training del modello avviando il primo ciclo di training. Quando si avvia un round di training, il modello seleziona in modo casuale altri elementi dal set di revisione, denominato set di training. Questi elementi (sia del set di controlli che del set di training) vengono presentati all'utente in modo da poter etichettare ognuno come "rilevante" o "non pertinente". La pertinenza si basa sul contenuto dell'elemento e non sui metadati del documento. Dopo aver completato il processo di etichettatura nel round di training, il modello "apprenderà" in base al modo in cui sono stati etichettati gli elementi nel set di training. In base a questo training, il modello elabora gli elementi nel set di revisione e applica un punteggio di stima a ognuno di essi.

    Per altre informazioni, vedere Eseguire il training di un modello di codifica predittiva.

  3. Applicare il filtro del punteggio di stima agli elementi nel set di revisioni. Al termine del passaggio di training precedente, il passaggio successivo consiste nell'applicare il filtro del punteggio di stima agli elementi della revisione per visualizzare gli elementi che il modello ha determinato sono "più rilevanti" (in alternativa, è anche possibile usare un filtro di stima per visualizzare gli elementi "non rilevanti"). Quando si applica il filtro di stima, si specifica un intervallo di punteggi di stima da filtrare. L'intervallo di punteggi di stima è compreso tra 0 e 1, mentre 0 è "non rilevante" e 1 è rilevante. In generale, gli elementi con punteggi di stima compresi tra 0 e 0,5 vengono considerati "non rilevanti" e gli elementi con punteggi di stima compresi tra 0,5 e 1 sono considerati rilevanti.

    Per altre informazioni, vedere Applicare un filtro di stima a un set di revisione.

  4. Eseguire altri turni di training fino a quando il modello non si stabilizza. È possibile eseguire cicli di training aggiuntivi se si vuole creare un modello con una maggiore accuratezza della stima e una maggiore frequenza di richiamo. La frequenza di richiamo misura la percentuale di elementi stimati dal modello rilevanti tra gli elementi effettivamente rilevanti (quelli contrassegnati come rilevanti durante il training). Il punteggio della frequenza di richiamo è compreso tra 0 e 1. Un punteggio più vicino a 1 indica che il modello identificherà gli elementi più rilevanti. In un nuovo round di training si etichettano elementi aggiuntivi in un nuovo set di training. Dopo aver completato il round di training, il modello viene aggiornato in base al nuovo apprendimento del ciclo più recente di elementi di etichettatura nel set di training. Il modello elaborerà di nuovo gli elementi nel set di revisione e applicherà nuovi punteggi di stima. È possibile continuare a eseguire cicli di training fino a quando il modello non si stabilizza. Un modello viene considerato stabilizzato quando la velocità di varianza dopo l'ultimo ciclo di training è inferiore al 5%. La frequenza di varianza è definita come percentuale di elementi in un set di revisione in cui il punteggio di stima è cambiato tra i turni di training. Il dashboard di codifica predittiva visualizza informazioni e statistiche che consentono di valutare la stabilità di un modello.

  5. Applicare il filtro del punteggio di stima "finale" per esaminare gli elementi impostati per assegnare priorità alla revisione. Dopo aver completato tutti i turni di training e aver stabilizzato il modello, l'ultimo passaggio consiste nell'applicare il punteggio di stima finale al set di revisione per assegnare priorità alla revisione degli elementi rilevanti e non pertinenti. Questa è la stessa attività eseguita nel passaggio 3, ma a questo punto il modello è stabile e non si prevede di eseguire altri turni di training.