Kognitivní dovednost rozpoznávání identifikovatelných osobních údajů (PII)

Dovednost detekce PII extrahuje osobní údaje ze vstupního textu a nabízí možnost ho maskovat. Tato dovednost využívá modely detekce poskytované v jazyce Azure AI.

Poznámka:

Tato dovednost je vázána na služby Azure AI a vyžaduje fakturovatelný prostředek pro transakce, které překračují 20 dokumentů na indexer za den. Provádění integrovaných dovedností se účtuje za stávající cenu průběžných plateb za služby Azure AI.

@odata.type

Microsoft.Skills.Text.PIIDetectionSkill

Omezení dat

Maximální velikost záznamu by měla být 50 000 znaků měřená String.Lengthhodnotou . Dovednosti rozdělení textu můžete použít k vytváření bloků dat. Pokud chcete dosáhnout nejlepších výsledků, nastavte délku stránky na 5 000.

Parametry dovedností

Parametry rozlišují malá a velká písmena a všechny jsou volitelné.

Název parametru Popis
defaultLanguageCode (Volitelné) Kód jazyka, který se použije u dokumentů, které explicitně nezadávají jazyk. Pokud není zadaný výchozí kód jazyka, angličtina (en) je výchozím kódem jazyka.
Projděte si kompletní seznam podporovaných jazyků.
minimumPrecision Hodnota mezi 0,0 a 1,0. Pokud je skóre spolehlivosti (ve výstupu piiEntities ) nižší než nastavená minimumPrecision hodnota, entita se nevrátí ani maskuje. Výchozí hodnota je 0,0.
maskingMode Parametr, který poskytuje různé způsoby maskování osobních údajů zjištěných ve vstupním textu. Podporují se následující možnosti:
  • "none" (výchozí): Nedojde k žádnému maskedText maskování a výstup se nevrátí.
  • "replace": Nahradí zjištěné entity znakem zadaným v parametru maskingCharacter . Znak se opakuje na délku zjištěné entity, aby posuny správně odpovídaly vstupnímu textu i výstupu maskedText.
maskingCharacter Znak použitý k maskování textu, pokud maskingMode je parametr nastaven na replace. Podporuje se následující možnost: * (výchozí). Tento parametr může být null pouze v případě maskingMode , že není nastavený na replacehodnotu .
domain (Volitelné) Řetězcová hodnota, pokud je zadána, nastaví doménu na podmnožinu kategorií entit. Mezi možné hodnoty patří: "phi" (pouze zjistit důvěrné informace o stavu), "none".
piiCategories (Volitelné) Pokud chcete určit, které entity se detekují a vrátí, použijte tento volitelný parametr (definovaný jako seznam řetězců) s příslušnými kategoriemi entit. Tento parametr vám také umožní rozpoznat entity, které nejsou ve výchozím nastavení povolené pro váš jazyk dokumentu. Úplný seznam najdete v kategoriích entit s podporovanými identifikovatelnými osobními údaji.
modelVersion (Volitelné) Určuje verzi modelu, která se má použít při volání detekce identifikovatelných osobních údajů. Výchozí hodnota je nejnovější verze, pokud není zadána. Tuto hodnotu doporučujeme nezadávat, pokud není nutná.

Vstupy dovedností

Název vstupu Popis
languageCode Řetězec označující jazyk záznamů. Pokud tento parametr není zadaný, použije se k analýze záznamů výchozí kód jazyka.
Projděte si kompletní seznam podporovaných jazyků.
text Text, který chcete analyzovat.

Výstupy dovedností

Název výstupu Popis
piiEntities Pole komplexních typů, které obsahuje následující pole:
  • "text" (Skutečné identifikovatelné osobní údaje jako extrahované)
  • "type"
  • "subType"
  • "score" (Vyšší hodnota znamená, že je pravděpodobnější, že se jedná o skutečnou entitu).
  • "offset" (do vstupního textu)
  • "length"

Úplný seznam najdete v kategoriích entit s podporovanými identifikovatelnými osobními údaji.
maskedText Tento výstup se liší v závislosti maskingModena . Pokud maskingMode je replace, výstup je řetězcový výsledek maskování prováděné přes vstupní text, jak je popsáno v maskingMode. Pokud maskingMode ano none, neexistuje žádný výstup.

Ukázková definice

  {
    "@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
    "defaultLanguageCode": "en",
    "minimumPrecision": 0.5,
    "maskingMode": "replace",
    "maskingCharacter": "*",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "piiEntities"
      },
      {
        "name": "maskedText"
      }
    ]
  }

Ukázkový vstup

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
           }
      }
    ]
}

Ukázkový výstup

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "piiEntities":[ 
           { 
              "text":"859-98-0987",
              "type":"U.S. Social Security Number (SSN)",
              "subtype":"",
              "offset":28,
              "length":11,
              "score":0.65
           }
        ],
        "maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
      }
    }
  ]
}

Posuny vrácené entitami ve výstupu této dovednosti se vrátí přímo z rozhraní API služby Language Service, což znamená, že pokud je používáte k indexování do původního řetězce, měli byste k extrahování správného obsahu použít třídu StringInfo v .NET. Další informace najdete v tématu Podpora vícejazyčných a emoji ve funkcích služby Jazyk.

Chyby a upozornění

Pokud kód jazyka dokumentu není podporován, vrátí se upozornění a nebudou extrahovány žádné entity. Pokud je text prázdný, vrátí se upozornění. Pokud je text větší než 50 000 znaků, analyzuje se pouze prvních 50 000 znaků a zobrazí se upozornění.

Pokud dovednost vrátí upozornění, může být výstup maskedText prázdný, což může mít vliv na všechny podřízené dovednosti, které očekávají výstup. Z tohoto důvodu nezapomeňte prozkoumat všechna upozornění související s chybějícím výstupem při psaní definice sady dovedností.

Viz také