Použití prostředku Přineste si vlastní úložiště (BYOS) speech pro převod řeči na text

Přineste si vlastní úložiště (BYOS) můžete použít v následujících scénářích převodu řeči na text:

  • Dávkový přepis
  • Přepis v reálném čase s povoleným protokolováním výsledků zvuku a přepisu
  • Vlastní řeč

Jednu dvojici prostředků služby Speech a účtu úložiště je možné použít pro všechny scénáře současně.

Tento článek podrobně vysvětluje, jak používat prostředek služby Speech s podporou BYOS ve všech scénářích převodu řeči na text. Tento článek znamená, že máte plně nakonfigurovaný prostředek služby Speech s podporou BYOS a přidružený účet úložiště.

Úložiště dat

Když používáte BYOS, služba Speech po dokončení zpracování dat (přepis, trénování modelu, testování modelu) neuchová žádné artefakty zákazníků. Některá metadata, která nejsou odvozená z uživatelského obsahu, se ale ukládají v místním prostředí služby Speech. Například ve scénáři vlastní řeči služba uchovává určité informace o vlastních koncových bodech, jako jsou modely, které používají.

Účet úložiště přidružený k BYOS ukládá následující data:

Poznámka:

Volitelné v této části znamená, že je možné, ale není nutné ukládat konkrétní artefakty do účtu úložiště přidruženého k BYOS. V případě potřeby je možné je uložit jinde.

Dávkový přepis

  • Zdrojový zvuk (volitelné)
  • Výsledky dávkového přepisu

Přepis v reálném čase s povoleným protokolováním výsledků zvuku a přepisu

  • Protokoly výsledků zvuku a přepisu

Vlastní řeč

  • Zdrojové soubory datových sad pro trénování a testování modelu (volitelné)
  • Všechna data a metadata související s vlastními modely hostovanými prostředkem služby Speech s podporou BYOS (včetně kopií datových sad pro trénování a testování modelů)

Dávkový přepis

Dávkový přepis se používá k přepisu velkého množství zvukových dat v úložišti. Pokud neznáte přepis služby Batch, podívejte se nejprve na tento článek .

Provedením těchto kroků spusťte dávkový přepis s prostředkem služby Speech s podporou BYOS:

  1. Spusťte dávkový přepis, jak je popsáno v tomto průvodci.

    Důležité

    V požadavku na přepis nepoužívejte destinationContainerUrl parametr. Pokud používáte BYOS, výsledky přepisu se automaticky ukládají do účtu úložiště přidruženého k BYOS.

    Pokud použijete destinationContainerUrl parametr, bude fungovat, ale poskytuje výrazně méně zabezpečení vašich dat, a to z důvodu ad hoc využití SAS. Další podrobnosti najdete tady.

  2. Po dokončení přepisu získejte výsledky přepisu podle tohoto průvodce. Zvažte použití sasValidityInSeconds parametru (viz následující část).

Služba Speech používá customspeech-artifacts kontejner objektů blob v účtu úložiště přidruženém k BYOS k ukládání průběžných a konečných výsledků přepisu.

Upozornění

Služba Speech využívá předdefinované cesty ke kontejnerům objektů blob a názvy souborů pro modul pro přepis služby Batch, aby správně fungovala. Nepřesouvejte, přejmenovávejte ani nijak neměníte obsah kontejneru customspeech-artifacts .

Pokud to neuděláte, bude velmi pravděpodobné, že bude obtížné ladit chyby 4xx a 5xx služby.

Nevystavujte také řešení, která přímo používají soubory a složky kontejneru customspeech-artifacts . K interakci s přepisem služby Batch použijte standardní nástroje. Podrobnosti najdete v části Dávkové přepisy.

Získání výsledků přepisu služby Batch prostřednictvím rozhraní REST API

Rozhraní REST API pro převod řeči na text plně podporuje prostředky řeči s podporou BYOS. Vzhledem k tomu, že se data teď ukládají v účtu úložiště s podporou BYOS, požadavky, jako je Získání souborů přepisu, pracují s úložištěm objektů blob účtu úložiště přidruženého k BYOS místo interních prostředků služby Speech. Umožňuje používat stejný kód založený na rozhraní REST API pro "běžné" i prostředky řeči s podporou BYOS.

Pro maximální zabezpečení použijte sasValidityInSeconds parametr s hodnotou nastavenou v 0 požadavcích, které vracejí adresy URL datových souborů, jako je požadavek Získat soubory přepisu . Tady je příklad adresy URL požadavku:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0

Takový požadavek vrátí přímé adresy URL účtu úložiště datovým souborům (bez SAS nebo jiných doplňků). Příklad:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
      }

Adresa URL tohoto formátu zajišťuje, že k datům z adresy URL mají přístup pouze identity Microsoft Entra (uživatelé, instanční objekty, spravované identity) s dostatečnými přístupovými právy (jako je role Čtenář dat objektu blob služby Storage).

Upozorňující

Pokud sasValidityInSeconds je parametr vynechán v požadavku Get Transcription Files nebo podobné, vygeneruje se sas delegování uživatele s platností 5 dnů pro každou vrácenou adresu URL datového souboru. Tento SAS je podepsaný spravovanou identitou přiřazenou systémem vašeho prostředku služby Speech s podporou BYOS. Z tohoto důvodu sas umožňuje přístup k datům, i když je přístup ke klíči účtu úložiště zakázaný. Další podrobnosti najdete tady.

Přepis v reálném čase s povoleným protokolováním výsledků zvuku a přepisu

Protokolování pro zvukový vstup i rozpoznanou řeč můžete povolit při použití řeči na text nebo překlad řeči. Podívejte se na úplný popis v tomto článku.

Pokud používáte BYOS, najdete protokoly v kontejneru objektů blob v customspeech-audiologs účtu úložiště přidruženém k BYOS.

Upozorňující

Protokolování dat se uchovává po dobu 5 dnů. Po uplynutí této doby se protokoly automaticky odstraní. To platí i pro prostředky služby Speech s podporou BYOS. Pokud chcete protokoly uchovávat déle, zkopírujte odpovídající soubory a složky z customspeech-audiologs kontejneru objektů blob přímo nebo použijte rozhraní REST API.

Získání protokolů přepisu v reálném čase prostřednictvím rozhraní REST API

Rozhraní REST API pro převod řeči na text plně podporuje prostředky řeči s podporou BYOS. Vzhledem k tomu, že data jsou teď uložená v účtu úložiště s podporou BYOS, požadavky jako Get Base Model Logs interagují s úložištěm objektů blob účtu úložiště přidruženého k BYOS místo interních prostředků služby Speech. Umožňuje používat stejný kód založený na rozhraní REST API pro "běžné" i prostředky řeči s podporou BYOS.

Pro maximální zabezpečení použijte sasValidityInSeconds parametr s hodnotou nastavenou v 0 požadavcích, které vracejí adresy URL datových souborů, jako je požadavek Získat protokoly základního modelu. Tady je příklad adresy URL požadavku:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0

Takový požadavek vrátí přímé adresy URL účtu úložiště datovým souborům (bez SAS nebo jiných doplňků). Příklad:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
      }

Adresa URL tohoto formátu zajišťuje, že k datům z adresy URL mají přístup pouze identity Microsoft Entra (uživatelé, instanční objekty, spravované identity) s dostatečnými přístupovými právy (jako je role Čtenář dat objektu blob služby Storage).

Upozorňující

Pokud sasValidityInSeconds parametr vynecháte v požadavku Get Base Model Logs nebo podobné, vygeneruje se sas delegování uživatele s platností 5 dnů pro každou vrácenou adresu URL datového souboru. Tento SAS je podepsaný spravovanou identitou přiřazenou systémem vašeho prostředku služby Speech s podporou BYOS. Z tohoto důvodu sas umožňuje přístup k datům, i když je přístup ke klíči účtu úložiště zakázaný. Další podrobnosti najdete tady.

Vlastní řeč

Pomocí vlastní řeči můžete vyhodnotit a zlepšit přesnost rozpoznávání řeči pro vaše aplikace a produkty. Vlastní model řeči se dá použít pro převod řeči v reálném čase na text, překlad řeči a dávkový přepis. Další informace najdete v přehledu vlastní řeči.

Není nic specifického o tom, jak používat vlastní řeč s prostředkem služby Speech s podporou BYOS. Jediným rozdílem je, že jsou uložena všechna vlastní data související s modelem, která služba Speech shromažďuje a vytváří za vás. Data jsou uložená v následujících kontejnerech objektů blob účtu úložiště přidruženého k BYOS:

  • customspeech-models - Umístění vlastních modelů řeči
  • customspeech-artifacts - Umístění všech ostatních vlastních dat souvisejících s řečí

Struktura kontejneru objektů blob se poskytuje pouze pro vaše informace a bez upozornění se může změnit.

Upozornění

Služba Speech spoléhá na předdefinované cesty ke kontejneru objektů blob a názvy souborů pro správné fungování vlastního modulu řeči. Nepřesouvejte, přejmenovávejte ani nijak neměníte obsah customspeech-models kontejnerů a vlastních složek souvisejících s řečí kontejneru customspeech-artifacts .

Pokud to neuděláte, bude velmi pravděpodobné, že dojde k obtížnému ladění chyb a může vést k nutnosti opětovného trénování vlastního modelu.

Nevystavujte také řešení, která přímo používají soubory a složky kontejneru customspeech-artifacts . K interakci s vlastními daty souvisejícími s řečí používejte standardní nástroje, jako jsou rozhraní REST API a Speech Studio. Podrobnosti najdete v části Vlastní řeč.

Použití rozhraní REST API s vlastní řečí

Rozhraní REST API pro převod řeči na text plně podporuje prostředky řeči s podporou BYOS. Vzhledem k tomu, že se data teď ukládají v účtu úložiště s podporou BYOS, požadavky jako Datasets_ListFiles interagují s úložištěm objektů blob účtu úložiště přidruženého k BYOS místo interních prostředků služby Speech. Umožňuje používat stejný kód založený na rozhraní REST API pro "běžné" i prostředky řeči s podporou BYOS.

Pro maximální zabezpečení použijte sasValidityInSeconds parametr s hodnotou nastavenou v 0 požadavcích, které vracejí adresy URL datových souborů, jako je požadavek Získat soubory datových sad. Tady je příklad adresy URL požadavku:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0

Takový požadavek vrátí přímé adresy URL účtu úložiště datovým souborům (bez SAS nebo jiných doplňků). Příklad:

 "links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
      }

Adresa URL tohoto formátu zajišťuje, že k datům z adresy URL mají přístup pouze identity Microsoft Entra (uživatelé, instanční objekty, spravované identity) s dostatečnými přístupovými právy (jako je role Čtenář dat objektu blob služby Storage).

Upozorňující

Pokud sasValidityInSeconds parametr v požadavku Get Dataset Files nebo podobných parametru vynecháte, vygeneruje se pro každou vrácenou adresu URL datového souboru SAS delegování uživatele s platností 5 dnů. Tento SAS je podepsaný spravovanou identitou přiřazenou systémem vašeho prostředku služby Speech s podporou BYOS. Z tohoto důvodu sas umožňuje přístup k datům, i když je přístup ke klíči účtu úložiště zakázaný. Další podrobnosti najdete tady.

Další kroky