Så här identifierar och redigerar du personligt identifierande information (PII) i konversationer

Artikel
10/16/2024

Funktionen Konversations-PII kan utvärdera konversationer för att extrahera känslig information (PII) i innehållet i flera fördefinierade kategorier och redigera dem. Det här API:et fungerar både med transkriberad text (refereras till som avskrifter) och chattar. För avskrifter möjliggör API:et även redigering av ljudsegment, som innehåller PII-information genom att tillhandahålla information om ljudtid för dessa ljudsegment.

Bestämma hur data ska bearbetas (valfritt)

Ange PII-identifieringsmodellen

Som standard använder den här funktionen den senaste tillgängliga AI-modellen på dina indata. Du kan också konfigurera dina API-begäranden att använda en specifik modellversion.

Språkstöd

Mer information finns på sidan SUPPORT för PII-språk. För närvarande stöder den konversationsbaserade PII GA-modellen endast det engelska språket. Förhandsgranskningsmodellen och API:et stöder samma listspråk som de andra språktjänsterna.

Stöd för regioner

API:et för konversations-PII stöder alla Azure-regioner som stöds av språktjänsten.

Skicka data

Kommentar

Mer information om hur du formaterar konversationstext för att skicka med Language Studio finns i Language Studio-artikeln .

Du kan skicka indata till API:et som en lista över konversationsobjekt. Analysen utförs när begäran har tagits emot. Eftersom API:et är asynkront kan det uppstå en fördröjning mellan att skicka en API-begäran och att ta emot resultaten. Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i datagränserna nedan.

När du använder funktionen async är API-resultaten tillgängliga i 24 timmar från den tidpunkt då begäran matades in och anges i svaret. Efter den här tidsperioden rensas resultaten och är inte längre tillgängliga för hämtning.

När du skickar data till konversations-PII kan du skicka en konversation (chatt eller talat) per begäran.

API:et försöker identifiera alla definierade entitetskategorier för en viss konversationsinmatning. Om du vill ange vilka entiteter som ska identifieras och returneras använder du den valfria piiCategories parametern med lämpliga entitetskategorier.

För talade avskrifter returneras de identifierade entiteterna på det redactionSource angivna parametervärdet. För närvarande är de värden som stöds för redactionSource , lexical, itnoch maskedItn (som mappar till SPEECH till TEXT REST API:ets display\displayText, lexicalitn respektive maskedItn format).text För talade avskriftsindata tillhandahåller det här API:et dessutom information om ljudtidsinställningar för att ge ljudredigering. Använd den valfria includeAudioRedaction flaggan med true värde för att använda funktionen audioRedaction. Ljudredigeringen utförs baserat på det lexikala indataformatet.

Kommentar

Konversations-PII stöder nu 40 000 tecken som dokumentstorlek.

Hämta PII-resultat

När du får resultat från PII-identifiering kan du strömma resultatet till ett program eller spara utdata till en fil i det lokala systemet. API-svaret innehåller identifierade entiteter, inklusive deras kategorier och underkategorier samt konfidenspoäng. Textsträngen med PII-entiteterna redigerade returneras också.

Gå till resursöversiktssidan i Azure-portalen
På menyn till vänster väljer du Nycklar och Slutpunkt. Du behöver en av nycklarna och slutpunkten för att autentisera dina API-begäranden.
Ladda ned och installera klientbibliotekspaketet för valfritt språk:

Språk Paketversion

.NET 1.0.0

Python 1.0.0
Mer information om klienten och returobjekt finns i följande referensdokumentation:
- C#
- Python

Språk	Paketversion
.NET	1.0.0
Python	1.0.0

Skicka avskrifter med tal till text

Använd följande exempel om du har transkriberade konversationer med hjälp av speech-tjänstens tal till text-funktion :

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Skicka textchatt

Använd följande exempel om du har konversationer som har sitt ursprung i text. Till exempel konversationer via en textbaserad chattklient.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview"
            }
        }
    ]
}
`

Hämta resultatet

operation-location Hämta från svarshuvudet. Värdet ser ut ungefär så här:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Använd följande cURL-kommando för att hämta resultatet av begäran. Ersätt my-job-id med det numeriska ID-värdet som du fick från föregående operation-location svarsrubrik:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Tjänst- och datagränser

Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i artikeln om tjänstbegränsningar .

Dela via