Kognitivní dovednost rozpoznávání identifikovatelných osobních údajů (PII)
Dovednost detekce PII extrahuje osobní údaje ze vstupního textu a nabízí možnost ho maskovat. Tato dovednost využívá modely detekce poskytované v jazyce Azure AI.
Poznámka:
Tato dovednost je vázána na služby Azure AI a vyžaduje fakturovatelný prostředek pro transakce, které překračují 20 dokumentů na indexer za den. Provádění integrovaných dovedností se účtuje za stávající cenu průběžných plateb za služby Azure AI.
@odata.type
Microsoft.Skills.Text.PIIDetectionSkill
Omezení dat
Maximální velikost záznamu by měla být 50 000 znaků měřená String.Length
hodnotou . Dovednosti rozdělení textu můžete použít k vytváření bloků dat. Pokud chcete dosáhnout nejlepších výsledků, nastavte délku stránky na 5 000.
Parametry dovedností
Parametry rozlišují malá a velká písmena a všechny jsou volitelné.
Název parametru | Popis |
---|---|
defaultLanguageCode |
(Volitelné) Kód jazyka, který se použije u dokumentů, které explicitně nezadávají jazyk. Pokud není zadaný výchozí kód jazyka, angličtina (en) je výchozím kódem jazyka. Projděte si kompletní seznam podporovaných jazyků. |
minimumPrecision |
Hodnota mezi 0,0 a 1,0. Pokud je skóre spolehlivosti (ve výstupu piiEntities ) nižší než nastavená minimumPrecision hodnota, entita se nevrátí ani maskuje. Výchozí hodnota je 0,0. |
maskingMode |
Parametr, který poskytuje různé způsoby maskování osobních údajů zjištěných ve vstupním textu. Podporují se následující možnosti:
|
maskingCharacter |
Znak použitý k maskování textu, pokud maskingMode je parametr nastaven na replace . Podporuje se následující možnost: * (výchozí). Tento parametr může být null pouze v případě maskingMode , že není nastavený na replace hodnotu . |
domain |
(Volitelné) Řetězcová hodnota, pokud je zadána, nastaví doménu na podmnožinu kategorií entit. Mezi možné hodnoty patří: "phi" (pouze zjistit důvěrné informace o stavu), "none" . |
piiCategories |
(Volitelné) Pokud chcete určit, které entity se detekují a vrátí, použijte tento volitelný parametr (definovaný jako seznam řetězců) s příslušnými kategoriemi entit. Tento parametr vám také umožní rozpoznat entity, které nejsou ve výchozím nastavení povolené pro váš jazyk dokumentu. Úplný seznam najdete v kategoriích entit s podporovanými identifikovatelnými osobními údaji. |
modelVersion |
(Volitelné) Určuje verzi modelu, která se má použít při volání detekce identifikovatelných osobních údajů. Výchozí hodnota je nejnovější verze, pokud není zadána. Tuto hodnotu doporučujeme nezadávat, pokud není nutná. |
Vstupy dovedností
Název vstupu | Popis |
---|---|
languageCode |
Řetězec označující jazyk záznamů. Pokud tento parametr není zadaný, použije se k analýze záznamů výchozí kód jazyka. Projděte si kompletní seznam podporovaných jazyků. |
text |
Text, který chcete analyzovat. |
Výstupy dovedností
Ukázková definice
{
"@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
"defaultLanguageCode": "en",
"minimumPrecision": 0.5,
"maskingMode": "replace",
"maskingCharacter": "*",
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "piiEntities"
},
{
"name": "maskedText"
}
]
}
Ukázkový vstup
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
}
}
]
}
Ukázkový výstup
{
"values": [
{
"recordId": "1",
"data" :
{
"piiEntities":[
{
"text":"859-98-0987",
"type":"U.S. Social Security Number (SSN)",
"subtype":"",
"offset":28,
"length":11,
"score":0.65
}
],
"maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
}
}
]
}
Posuny vrácené entitami ve výstupu této dovednosti se vrátí přímo z rozhraní API služby Language Service, což znamená, že pokud je používáte k indexování do původního řetězce, měli byste k extrahování správného obsahu použít třídu StringInfo v .NET. Další informace najdete v tématu Podpora vícejazyčných a emoji ve funkcích služby Jazyk.
Chyby a upozornění
Pokud kód jazyka dokumentu není podporován, vrátí se upozornění a nebudou extrahovány žádné entity. Pokud je text prázdný, vrátí se upozornění. Pokud je text větší než 50 000 znaků, analyzuje se pouze prvních 50 000 znaků a zobrazí se upozornění.
Pokud dovednost vrátí upozornění, může být výstup maskedText
prázdný, což může mít vliv na všechny podřízené dovednosti, které očekávají výstup. Z tohoto důvodu nezapomeňte prozkoumat všechna upozornění související s chybějícím výstupem při psaní definice sady dovedností.