Kategorie szkód w bezpieczeństwie zawartości usługi Azure AI

W tym przewodniku opisano wszystkie kategorie szkód i oceny używane przez bezpieczeństwo zawartości sztucznej inteligencji platformy Azure do flagowania zawartości. Zarówno tekst, jak i zawartość obrazu używają tego samego zestawu flag.

Kategorie szkód

Bezpieczeństwo zawartości rozpoznaje cztery odrębne kategorie niepożądanej zawartości.

Kategoria opis Termin interfejsu API
Nienawiść i sprawiedliwość Szkody związane z nienawiścią i sprawiedliwością odnoszą się do jakiejkolwiek zawartości, która atakuje lub używa dyskryminującego języka, odwołując się do osoby lub grupy tożsamości na podstawie pewnych atrybutów różnicowych tych grup.

Są to między innymi systemy:
  • Rasa, pochodzenie etniczne, narodowość
  • Grupy i wyrażenia tożsamości płci
  • Orientacja seksualna
  • Religia
  • Wygląd osobisty i rozmiar ciała
  • Stan niepełnosprawności
  • Nękanie i zastraszanie
Hate
Seksualny Seksualny opisuje język związany z anatomicznymi narządami i genitaliami, romantycznymi relacjami i aktami seksualnymi, aktami przedstawionymi w erotycznych lub pieszczotliwych warunkach, w tym tych przedstawianych jako napaść lub wymuszony akt przemocy seksualnej przeciwko woli. 

 Obejmuje ona między innymi następujące dokumenty:
  • Wulgarna zawartość
  • Prostytucja
  • Nagość i pornografia
  • Nadużycie
  • Wykorzystywanie dzieci, wykorzystywanie dzieci, pielęgnacja dzieci
Sexual
Przemoc Przemoc opisuje język związany z działaniami fizycznymi mającymi na celu zranienie, uszkodzenie, uszkodzenie lub zabicie kogoś lub coś; opisuje broń, broń i powiązane jednostki.

Obejmuje to, ale nie jest ograniczone do:
  • Broni
  • Zastraszanie i zastraszanie
  • Terroryzm i brutalny ekstremizm
  • Stalking
Violence
Samookaleczenia Samookaleczenia opisuje język związany z działaniami fizycznymi, które mają celowo zaszkodzić, zranić, uszkodzić ciało lub zabić siebie.

Obejmuje to, ale nie jest ograniczone do:
  • Zaburzenia odżywiania
  • Zastraszanie i zastraszanie
SelfHarm

Klasyfikacja może być oznaczona wieloma etykietami. Na przykład gdy przykładowy tekst przechodzi przez model moderowania tekstu, może zostać sklasyfikowany jako zawartość seksualna i przemoc.

Poziomy ważności

Każda kategoria szkody, która ma zastosowanie, ma również klasyfikację poziomu ważności. Poziom ważności ma wskazywać ważność konsekwencji pokazywania oflagowanych zawartości.

Tekst: bieżąca wersja modelu tekstu obsługuje pełną skalę ważności od 0 do 7. Klasyfikator wykrywa wszystkie ważności w tej skali. Jeśli użytkownik określi, może zwrócić ważność w przyciętej skali 0, 2, 4 i 6; każdy z dwóch sąsiednich poziomów jest mapowany na jeden poziom.

  • [0,1] ->0
  • [2,3] ->2
  • [4,5] ->4
  • [6,7] ->6

Obraz: Bieżąca wersja modelu obrazu obsługuje przyciętą wersję pełnej skali ważności od 0 do 7. Klasyfikator zwraca tylko ważności 0, 2, 4 i 6.

  • 0
  • 2
  • 4
  • 6

Obraz z tekstem: bieżąca wersja modelu wielomodalnego obsługuje pełną skalę ważności 0–7. Klasyfikator wykrywa wszystkie ważności w tej skali. Jeśli użytkownik określi, może zwrócić ważność w przyciętej skali 0, 2, 4 i 6; każdy z dwóch sąsiednich poziomów jest mapowany na jeden poziom.

  • [0,1] ->0
  • [2,3] ->2
  • [4,5] ->4
  • [6,7] ->6

Zawartość tekstowa

Ostrzeżenie

Karta Definicje ważności w tym dokumencie zawiera przykłady szkodliwej zawartości, która może być niepokojąca dla niektórych czytelników.

Zawartość obrazu

Ostrzeżenie

Karta Definicje ważności w tym dokumencie zawiera przykłady szkodliwej zawartości, która może być niepokojąca dla niektórych czytelników.

Zawartość wielomodalna (obraz z tekstem)

Ostrzeżenie

Karta Definicje ważności w tym dokumencie zawiera przykłady szkodliwej zawartości, która może być niepokojąca dla niektórych czytelników.

Następne kroki

Postępuj zgodnie z przewodnikiem Szybki start, aby rozpocząć korzystanie z bezpieczeństwa zawartości usługi Azure AI w aplikacji.