Získání výsledků rozpoznávání řeči
Referenční dokumentace | Package (NuGet) | Další ukázky na GitHubu
V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.
Synchronizace řeči
Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.
Služba Speech vrátí posun a dobu trvání rozpoznané řeči.
- Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje
0
(nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu. - Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.
Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.
Rozpoznávání posunu a doby trvání
Recognizing
U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing
událost má zatím rozpoznaný textový odhad řeči.
Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Rozpoznaný posun a doba trvání
Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized
můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig
vlastnost, jak je znázorněno zde:
speechConfig.RequestWordLevelTimestamps();
Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Příklad posunu a doby trvání
Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing
a Recognized
událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing
událostmi a Recognized
událostmi, protože konečný výsledek se může lišit.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | Vítejte | 17000000 | 5000000 |
ROZPOZNÁNÍ | Vítá vás | 17000000 | 6400000 |
ROZPOZNÁNÍ | Vítá vás použité matematiky | 17000000 | 13600000 |
ROZPOZNÁNÍ | Vítejte v aplikaci matematiky | 17000000 | 17200000 |
ROZPOZNÁNÍ | Vítejte na použitém matematickém kurzu | 17000000 | 23700000 |
ROZPOZNÁNÍ | Vítejte v kurzu 2 pro matematiku | 17000000 | 26700000 |
ROZPOZNÁNÍ | Vítejte v kurzu matematiky 201 | 17000000 | 33400000 |
ROZPOZNANÝ | Vítejte v kurzu Matematika 201. | 17000000 | 34500000 |
Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).
Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | OK | 71500000 | 3100000 |
ROZPOZNÁNÍ | OK teď | 71500000 | 10300000 |
ROZPOZNÁNÍ | OK, teď pojďme | 71500000 | 14700000 |
ROZPOZNÁNÍ | Teď pojďme začít. | 71500000 | 18500000 |
ROZPOZNANÝ | Dobře, pojďme začít. | 71500000 | 20600000 |
Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).
Referenční dokumentace | Package (NuGet) | Další ukázky na GitHubu
V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.
Synchronizace řeči
Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.
Služba Speech vrátí posun a dobu trvání rozpoznané řeči.
- Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje
0
(nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu. - Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.
Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.
Rozpoznávání posunu a doby trvání
Recognizing
U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing
událost má zatím rozpoznaný textový odhad řeči.
Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Rozpoznaný posun a doba trvání
Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized
můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig
vlastnost, jak je znázorněno zde:
speechConfig->RequestWordLevelTimestamps();
Příklad posunu a doby trvání
Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing
a Recognized
událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing
událostmi a Recognized
událostmi, protože konečný výsledek se může lišit.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | Vítejte | 17000000 | 5000000 |
ROZPOZNÁNÍ | Vítá vás | 17000000 | 6400000 |
ROZPOZNÁNÍ | Vítá vás použité matematiky | 17000000 | 13600000 |
ROZPOZNÁNÍ | Vítejte v aplikaci matematiky | 17000000 | 17200000 |
ROZPOZNÁNÍ | Vítejte na použitém matematickém kurzu | 17000000 | 23700000 |
ROZPOZNÁNÍ | Vítejte v kurzu 2 pro matematiku | 17000000 | 26700000 |
ROZPOZNÁNÍ | Vítejte v kurzu matematiky 201 | 17000000 | 33400000 |
ROZPOZNANÝ | Vítejte v kurzu Matematika 201. | 17000000 | 34500000 |
Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).
Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | OK | 71500000 | 3100000 |
ROZPOZNÁNÍ | OK teď | 71500000 | 10300000 |
ROZPOZNÁNÍ | OK, teď pojďme | 71500000 | 14700000 |
ROZPOZNÁNÍ | Teď pojďme začít. | 71500000 | 18500000 |
ROZPOZNANÝ | Dobře, pojďme začít. | 71500000 | 20600000 |
Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).
Referenční dokumentace | Package (Go) | Další ukázky na GitHubu
V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.
Synchronizace řeči
Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.
Služba Speech vrátí posun a dobu trvání rozpoznané řeči.
- Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje
0
(nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu. - Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.
Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.
Rozpoznávání posunu a doby trvání
Recognizing
U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing
událost má zatím rozpoznaný textový odhad řeči.
Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Rozpoznaný posun a doba trvání
Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized
můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig
vlastnost, jak je znázorněno zde:
speechConfig.RequestWordLevelTimestamps();
Příklad posunu a doby trvání
Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing
a Recognized
událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing
událostmi a Recognized
událostmi, protože konečný výsledek se může lišit.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | Vítejte | 17000000 | 5000000 |
ROZPOZNÁNÍ | Vítá vás | 17000000 | 6400000 |
ROZPOZNÁNÍ | Vítá vás použité matematiky | 17000000 | 13600000 |
ROZPOZNÁNÍ | Vítejte v aplikaci matematiky | 17000000 | 17200000 |
ROZPOZNÁNÍ | Vítejte na použitém matematickém kurzu | 17000000 | 23700000 |
ROZPOZNÁNÍ | Vítejte v kurzu 2 pro matematiku | 17000000 | 26700000 |
ROZPOZNÁNÍ | Vítejte v kurzu matematiky 201 | 17000000 | 33400000 |
ROZPOZNANÝ | Vítejte v kurzu Matematika 201. | 17000000 | 34500000 |
Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).
Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | OK | 71500000 | 3100000 |
ROZPOZNÁNÍ | OK teď | 71500000 | 10300000 |
ROZPOZNÁNÍ | OK, teď pojďme | 71500000 | 14700000 |
ROZPOZNÁNÍ | Teď pojďme začít. | 71500000 | 18500000 |
ROZPOZNANÝ | Dobře, pojďme začít. | 71500000 | 20600000 |
Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).
Referenční dokumentace | Další ukázky na GitHubu
V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.
Synchronizace řeči
Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.
Služba Speech vrátí posun a dobu trvání rozpoznané řeči.
- Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje
0
(nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu. - Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.
Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.
Rozpoznávání posunu a doby trvání
Recognizing
U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing
událost má zatím rozpoznaný textový odhad řeči.
Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Rozpoznaný posun a doba trvání
Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized
můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig
vlastnost, jak je znázorněno zde:
speechConfig.requestWordLevelTimestamps();
Příklad posunu a doby trvání
Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing
a Recognized
událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing
událostmi a Recognized
událostmi, protože konečný výsledek se může lišit.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | Vítejte | 17000000 | 5000000 |
ROZPOZNÁNÍ | Vítá vás | 17000000 | 6400000 |
ROZPOZNÁNÍ | Vítá vás použité matematiky | 17000000 | 13600000 |
ROZPOZNÁNÍ | Vítejte v aplikaci matematiky | 17000000 | 17200000 |
ROZPOZNÁNÍ | Vítejte na použitém matematickém kurzu | 17000000 | 23700000 |
ROZPOZNÁNÍ | Vítejte v kurzu 2 pro matematiku | 17000000 | 26700000 |
ROZPOZNÁNÍ | Vítejte v kurzu matematiky 201 | 17000000 | 33400000 |
ROZPOZNANÝ | Vítejte v kurzu Matematika 201. | 17000000 | 34500000 |
Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).
Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | OK | 71500000 | 3100000 |
ROZPOZNÁNÍ | OK teď | 71500000 | 10300000 |
ROZPOZNÁNÍ | OK, teď pojďme | 71500000 | 14700000 |
ROZPOZNÁNÍ | Teď pojďme začít. | 71500000 | 18500000 |
ROZPOZNANÝ | Dobře, pojďme začít. | 71500000 | 20600000 |
Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).
Referenční dokumentace | Balíček (npm) | Další ukázky ve zdrojovém kódu knihovny GitHub |
V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.
Synchronizace řeči
Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.
Služba Speech vrátí posun a dobu trvání rozpoznané řeči.
- Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje
0
(nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu. - Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.
Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.
Rozpoznávání posunu a doby trvání
Recognizing
U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing
událost má zatím rozpoznaný textový odhad řeči.
Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Rozpoznaný posun a doba trvání
Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized
můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig
vlastnost, jak je znázorněno zde:
speechConfig.requestWordLevelTimestamps();
Příklad posunu a doby trvání
Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing
a Recognized
událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing
událostmi a Recognized
událostmi, protože konečný výsledek se může lišit.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | Vítejte | 17000000 | 5000000 |
ROZPOZNÁNÍ | Vítá vás | 17000000 | 6400000 |
ROZPOZNÁNÍ | Vítá vás použité matematiky | 17000000 | 13600000 |
ROZPOZNÁNÍ | Vítejte v aplikaci matematiky | 17000000 | 17200000 |
ROZPOZNÁNÍ | Vítejte na použitém matematickém kurzu | 17000000 | 23700000 |
ROZPOZNÁNÍ | Vítejte v kurzu 2 pro matematiku | 17000000 | 26700000 |
ROZPOZNÁNÍ | Vítejte v kurzu matematiky 201 | 17000000 | 33400000 |
ROZPOZNANÝ | Vítejte v kurzu Matematika 201. | 17000000 | 34500000 |
Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).
Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | OK | 71500000 | 3100000 |
ROZPOZNÁNÍ | OK teď | 71500000 | 10300000 |
ROZPOZNÁNÍ | OK, teď pojďme | 71500000 | 14700000 |
ROZPOZNÁNÍ | Teď pojďme začít. | 71500000 | 18500000 |
ROZPOZNANÝ | Dobře, pojďme začít. | 71500000 | 20600000 |
Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).
Referenční dokumentace | Balíček (stáhnout) | Další ukázky na GitHubu
V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.
Synchronizace řeči
Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.
Služba Speech vrátí posun a dobu trvání rozpoznané řeči.
- Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje
0
(nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu. - Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.
Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.
Rozpoznávání posunu a doby trvání
Recognizing
U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing
událost má zatím rozpoznaný textový odhad řeči.
Rozpoznaný posun a doba trvání
Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized
můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig
vlastnost, jak je znázorněno zde:
[speechConfig requestWordLevelTimestamps];
Příklad posunu a doby trvání
Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing
a Recognized
událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing
událostmi a Recognized
událostmi, protože konečný výsledek se může lišit.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | Vítejte | 17000000 | 5000000 |
ROZPOZNÁNÍ | Vítá vás | 17000000 | 6400000 |
ROZPOZNÁNÍ | Vítá vás použité matematiky | 17000000 | 13600000 |
ROZPOZNÁNÍ | Vítejte v aplikaci matematiky | 17000000 | 17200000 |
ROZPOZNÁNÍ | Vítejte na použitém matematickém kurzu | 17000000 | 23700000 |
ROZPOZNÁNÍ | Vítejte v kurzu 2 pro matematiku | 17000000 | 26700000 |
ROZPOZNÁNÍ | Vítejte v kurzu matematiky 201 | 17000000 | 33400000 |
ROZPOZNANÝ | Vítejte v kurzu Matematika 201. | 17000000 | 34500000 |
Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).
Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | OK | 71500000 | 3100000 |
ROZPOZNÁNÍ | OK teď | 71500000 | 10300000 |
ROZPOZNÁNÍ | OK, teď pojďme | 71500000 | 14700000 |
ROZPOZNÁNÍ | Teď pojďme začít. | 71500000 | 18500000 |
ROZPOZNANÝ | Dobře, pojďme začít. | 71500000 | 20600000 |
Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).
Referenční dokumentace | Balíček (stáhnout) | Další ukázky na GitHubu
V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.
Synchronizace řeči
Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.
Služba Speech vrátí posun a dobu trvání rozpoznané řeči.
- Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje
0
(nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu. - Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.
Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.
Rozpoznávání posunu a doby trvání
Recognizing
U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing
událost má zatím rozpoznaný textový odhad řeči.
Rozpoznaný posun a doba trvání
Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized
můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig
vlastnost, jak je znázorněno zde:
[speechConfig requestWordLevelTimestamps];
Příklad posunu a doby trvání
Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing
a Recognized
událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing
událostmi a Recognized
událostmi, protože konečný výsledek se může lišit.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | Vítejte | 17000000 | 5000000 |
ROZPOZNÁNÍ | Vítá vás | 17000000 | 6400000 |
ROZPOZNÁNÍ | Vítá vás použité matematiky | 17000000 | 13600000 |
ROZPOZNÁNÍ | Vítejte v aplikaci matematiky | 17000000 | 17200000 |
ROZPOZNÁNÍ | Vítejte na použitém matematickém kurzu | 17000000 | 23700000 |
ROZPOZNÁNÍ | Vítejte v kurzu 2 pro matematiku | 17000000 | 26700000 |
ROZPOZNÁNÍ | Vítejte v kurzu matematiky 201 | 17000000 | 33400000 |
ROZPOZNANÝ | Vítejte v kurzu Matematika 201. | 17000000 | 34500000 |
Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).
Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | OK | 71500000 | 3100000 |
ROZPOZNÁNÍ | OK teď | 71500000 | 10300000 |
ROZPOZNÁNÍ | OK, teď pojďme | 71500000 | 14700000 |
ROZPOZNÁNÍ | Teď pojďme začít. | 71500000 | 18500000 |
ROZPOZNANÝ | Dobře, pojďme začít. | 71500000 | 20600000 |
Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).
Referenční dokumentace | Package (PyPi) | Další ukázky na GitHubu
V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.
Synchronizace řeči
Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.
Služba Speech vrátí posun a dobu trvání rozpoznané řeči.
- Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje
0
(nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu. - Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.
Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.
Rozpoznávání posunu a doby trvání
Recognizing
U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing
událost má zatím rozpoznaný textový odhad řeči.
Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Rozpoznaný posun a doba trvání
Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized
můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig
vlastnost, jak je znázorněno zde:
speech_config.request_word_level_timestamps()
Příklad posunu a doby trvání
Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing
a Recognized
událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing
událostmi a Recognized
událostmi, protože konečný výsledek se může lišit.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | Vítejte | 17000000 | 5000000 |
ROZPOZNÁNÍ | Vítá vás | 17000000 | 6400000 |
ROZPOZNÁNÍ | Vítá vás použité matematiky | 17000000 | 13600000 |
ROZPOZNÁNÍ | Vítejte v aplikaci matematiky | 17000000 | 17200000 |
ROZPOZNÁNÍ | Vítejte na použitém matematickém kurzu | 17000000 | 23700000 |
ROZPOZNÁNÍ | Vítejte v kurzu 2 pro matematiku | 17000000 | 26700000 |
ROZPOZNÁNÍ | Vítejte v kurzu matematiky 201 | 17000000 | 33400000 |
ROZPOZNANÝ | Vítejte v kurzu Matematika 201. | 17000000 | 34500000 |
Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).
Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | OK | 71500000 | 3100000 |
ROZPOZNÁNÍ | OK teď | 71500000 | 10300000 |
ROZPOZNÁNÍ | OK, teď pojďme | 71500000 | 14700000 |
ROZPOZNÁNÍ | Teď pojďme začít. | 71500000 | 18500000 |
ROZPOZNANÝ | Dobře, pojďme začít. | 71500000 | 20600000 |
Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).
V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.
Synchronizace řeči
Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.
Služba Speech vrátí posun a dobu trvání rozpoznané řeči.
- Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje
0
(nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu. - Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.
Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.
Rozpoznávání posunu a doby trvání
Titulky budete chtít synchronizovat se zvukovou stopou, ať už v reálném čase, nebo s předzáznamem. Recognizing
U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing
událost má zatím rozpoznaný textový odhad řeči.
Spuštěním následujícího příkazu například získejte posun a dobu trvání rozpoznané řeči:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Vzhledem k tomu, že byl @output.each.detailed
argument nastaven, výstup obsahuje následující záhlaví sloupců:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
result.json
Ve sloupci najdete podrobnosti, které zahrnují posun a dobu trvání událostí Recognizing
Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Další informace najdete v konfiguraci úložiště dat Rozhraní příkazového řádku služby Speech a možnostech výstupu.
Příklad posunu a doby trvání
Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing
a Recognized
událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing
událostmi a Recognized
událostmi, protože konečný výsledek se může lišit.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | Vítejte | 17000000 | 5000000 |
ROZPOZNÁNÍ | Vítá vás | 17000000 | 6400000 |
ROZPOZNÁNÍ | Vítá vás použité matematiky | 17000000 | 13600000 |
ROZPOZNÁNÍ | Vítejte v aplikaci matematiky | 17000000 | 17200000 |
ROZPOZNÁNÍ | Vítejte na použitém matematickém kurzu | 17000000 | 23700000 |
ROZPOZNÁNÍ | Vítejte v kurzu 2 pro matematiku | 17000000 | 26700000 |
ROZPOZNÁNÍ | Vítejte v kurzu matematiky 201 | 17000000 | 33400000 |
ROZPOZNANÝ | Vítejte v kurzu Matematika 201. | 17000000 | 34500000 |
Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).
Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.
Událost | Text | Posun (v odškrtávkách) | Doba trvání (v ticks) |
---|---|---|---|
ROZPOZNÁNÍ | OK | 71500000 | 3100000 |
ROZPOZNÁNÍ | OK teď | 71500000 | 10300000 |
ROZPOZNÁNÍ | OK, teď pojďme | 71500000 | 14700000 |
ROZPOZNÁNÍ | Teď pojďme začít. | 71500000 | 18500000 |
ROZPOZNANÝ | Dobře, pojďme začít. | 71500000 | 20600000 |
Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).