Kognitivní dovednost rozpoznávání identifikovatelných osobních údajů (PII)

Článek
09/01/2024

Dovednost detekce PII extrahuje osobní údaje ze vstupního textu a nabízí možnost ho maskovat. Tato dovednost využívá modely detekce poskytované v jazyce Azure AI.

Poznámka:

Tato dovednost je vázána na služby Azure AI a vyžaduje fakturovatelný prostředek pro transakce, které překračují 20 dokumentů na indexer za den. Provádění integrovaných dovedností se účtuje za stávající cenu průběžných plateb za služby Azure AI.

@odata.type

Microsoft.Skills.Text.PIIDetectionSkill

Omezení dat

Maximální velikost záznamu by měla být 50 000 znaků měřená String.Lengthhodnotou . Dovednosti rozdělení textu můžete použít k vytváření bloků dat. Pokud chcete dosáhnout nejlepších výsledků, nastavte délku stránky na 5 000.

Parametry dovedností

Parametry rozlišují malá a velká písmena a všechny jsou volitelné.

Název parametru	Popis
`defaultLanguageCode`	(Volitelné) Kód jazyka, který se použije u dokumentů, které explicitně nezadávají jazyk. Pokud není zadaný výchozí kód jazyka, angličtina (en) je výchozím kódem jazyka. Projděte si kompletní seznam podporovaných jazyků.
`minimumPrecision`	Hodnota mezi 0,0 a 1,0. Pokud je skóre spolehlivosti (ve výstupu `piiEntities` ) nižší než nastavená `minimumPrecision` hodnota, entita se nevrátí ani maskuje. Výchozí hodnota je 0,0.
`maskingMode`	Parametr, který poskytuje různé způsoby maskování osobních údajů zjištěných ve vstupním textu. Podporují se následující možnosti: `"none"` (výchozí): Nedojde k žádnému `maskedText` maskování a výstup se nevrátí. `"replace"`: Nahradí zjištěné entity znakem zadaným v parametru `maskingCharacter` . Znak se opakuje na délku zjištěné entity, aby posuny správně odpovídaly vstupnímu textu i výstupu `maskedText`.
`maskingCharacter`	Znak použitý k maskování textu, pokud `maskingMode` je parametr nastaven na `replace`. Podporuje se následující možnost: `*` (výchozí). Tento parametr může být `null` pouze v případě `maskingMode` , že není nastavený na `replace`hodnotu .
`domain`	(Volitelné) Řetězcová hodnota, pokud je zadána, nastaví doménu na podmnožinu kategorií entit. Mezi možné hodnoty patří: `"phi"` (pouze zjistit důvěrné informace o stavu), `"none"`.
`piiCategories`	(Volitelné) Pokud chcete určit, které entity se detekují a vrátí, použijte tento volitelný parametr (definovaný jako seznam řetězců) s příslušnými kategoriemi entit. Tento parametr vám také umožní rozpoznat entity, které nejsou ve výchozím nastavení povolené pro váš jazyk dokumentu. Úplný seznam najdete v kategoriích entit s podporovanými identifikovatelnými osobními údaji.
`modelVersion`	(Volitelné) Určuje verzi modelu, která se má použít při volání detekce identifikovatelných osobních údajů. Výchozí hodnota je nejnovější verze, pokud není zadána. Tuto hodnotu doporučujeme nezadávat, pokud není nutná.

Vstupy dovedností

Název vstupu	Popis
`languageCode`	Řetězec označující jazyk záznamů. Pokud tento parametr není zadaný, použije se k analýze záznamů výchozí kód jazyka. Projděte si kompletní seznam podporovaných jazyků.
`text`	Text, který chcete analyzovat.

Výstupy dovedností

Název výstupu Popis

Název výstupu	Popis
`piiEntities`	Pole komplexních typů, které obsahuje následující pole: `"text"` (Skutečné identifikovatelné osobní údaje jako extrahované) `"type"` `"subType"` `"score"` (Vyšší hodnota znamená, že je pravděpodobnější, že se jedná o skutečnou entitu). `"offset"` (do vstupního textu) `"length"` Úplný seznam najdete v kategoriích entit s podporovanými identifikovatelnými osobními údaji.
`maskedText`	Tento výstup se liší v závislosti `maskingMode`na . Pokud `maskingMode` je `replace`, výstup je řetězcový výsledek maskování prováděné přes vstupní text, jak je popsáno v `maskingMode`. Pokud `maskingMode` ano `none`, neexistuje žádný výstup.

piiEntities

Pole komplexních typů, které obsahuje následující pole:

"text" (Skutečné identifikovatelné osobní údaje jako extrahované)
"type"
"subType"
"score" (Vyšší hodnota znamená, že je pravděpodobnější, že se jedná o skutečnou entitu).
"offset" (do vstupního textu)
"length"

Úplný seznam najdete v kategoriích entit s podporovanými identifikovatelnými osobními údaji.

maskedText Tento výstup se liší v závislosti maskingModena . Pokud maskingMode je replace, výstup je řetězcový výsledek maskování prováděné přes vstupní text, jak je popsáno v maskingMode. Pokud maskingMode ano none, neexistuje žádný výstup.

Ukázková definice

  {
    "@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
    "defaultLanguageCode": "en",
    "minimumPrecision": 0.5,
    "maskingMode": "replace",
    "maskingCharacter": "*",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "piiEntities"
      },
      {
        "name": "maskedText"
      }
    ]
  }

Ukázkový vstup

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
           }
      }
    ]
}

Ukázkový výstup

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "piiEntities":[ 
           { 
              "text":"859-98-0987",
              "type":"U.S. Social Security Number (SSN)",
              "subtype":"",
              "offset":28,
              "length":11,
              "score":0.65
           }
        ],
        "maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
      }
    }
  ]
}

Posuny vrácené entitami ve výstupu této dovednosti se vrátí přímo z rozhraní API služby Language Service, což znamená, že pokud je používáte k indexování do původního řetězce, měli byste k extrahování správného obsahu použít třídu StringInfo v .NET. Další informace najdete v tématu Podpora vícejazyčných a emoji ve funkcích služby Jazyk.

Chyby a upozornění

Pokud kód jazyka dokumentu není podporován, vrátí se upozornění a nebudou extrahovány žádné entity. Pokud je text prázdný, vrátí se upozornění. Pokud je text větší než 50 000 znaků, analyzuje se pouze prvních 50 000 znaků a zobrazí se upozornění.

Pokud dovednost vrátí upozornění, může být výstup maskedText prázdný, což může mít vliv na všechny podřízené dovednosti, které očekávají výstup. Z tohoto důvodu nezapomeňte prozkoumat všechna upozornění související s chybějícím výstupem při psaní definice sady dovedností.

Sdílet prostřednictvím