自定义语音模型

项目
10/09/2024

注意

语音模型自定义（包括发音训练）仅在视频索引器 Azure 试用帐户和资源管理器帐户中受支持。经典帐户不支持它。有关如何以无成本更新帐户类型的指南，请参阅更新 Azure AI 视频索引器帐户。有关使用自定义语言体验的指导，请参阅 “自定义语言模型”。

使用 Azure AI 视频索引器，可以创建自定义语音模型，通过上传用于创建语音模型的数据集来自定义语音识别。本文介绍通过视频索引器网站执行此操作的步骤。还可以使用 API，如使用 API 自定义语音模型中所述。

有关自定义语音模型的详细概述和最佳做法，请参阅使用 Azure AI 视频索引器自定义语音模型。

先决条件

阅读语音模型训练最佳做法指南。
一个 Azure 帐户
Azure AI 视频索引器帐户

Web 门户
API

创建数据集

由于所有自定义模型都必须包含数据集，因此我们将从创建和管理数据集的过程开始。

选择“ 模型自定义 ”按钮。
选择“语音”选项卡。
选择“ 上传数据集”。
从“数据集类型”下拉菜单中选择纯文本或发音。每个语音模型必须具有纯文本数据集，并且可以选择性地具有发音数据集。
选择“ 浏览 ”并选择数据集文件。只能选择一个。
为模型选择语言。选择计划使用此模型编制索引的媒体文件中使用的语言。数据集名称预填充了文件的名称，但可以修改名称。
可以选择添加数据集的说明。如果希望有多个数据集，这可能有助于区分每个数据集。
选择“上传”。数据集创建完成后，可以使用它来训练和创建新模型。

查看和更新数据集

可以通过以下方式查看数据集及其属性：

单击数据集名称
将鼠标悬停在数据集上
选择省略号

然后选择“ 查看数据集”。

然后，可以查看数据集的名称、说明、语言和状态以及以下属性：

行数：指示成功加载出文件中总行数的行数。如果成功加载整个文件，则数字将匹配（例如，10 个规范化 10 个）。如果数字不匹配（例如，10 个规范化中的 7 个），这意味着只有一些行已成功加载，其余行有错误。错误的常见原因是设置行的格式问题，例如不要在发音文件中每个单词之间间距制表符。查看训练文章的纯文本和发音数据应该有助于查找问题。若要对原因进行故障排除，请查看报告中包含的错误详细信息。选择“查看报告”以查看未成功加载的行的错误详细信息（errorKind）。也可以通过选择“ 报表 ”选项卡来查看。

数据集 ID：每个数据集都有唯一的 GUID，在使用 API 引用数据集的操作时需要该 GUID。

纯文本（规范化）：它包含加载的数据集文件的规范化文本。规范化文本是纯格式的识别文本，不带格式。

编辑详细信息：若要编辑数据集的名称或说明，请将鼠标悬停在数据集上时，选择省略号，然后选择“编辑详细信息”。然后，可以编辑数据集名称和说明。

注意

上传数据集后，无法编辑或更新数据集中的数据。如果需要编辑或更新数据集中的数据，请下载数据集、执行编辑、保存文件以及上传新数据集文件。

下载：若要下载数据集文件，请将鼠标悬停在数据集上时，选择省略号，然后选择“下载”。或者，查看数据集时，可以选择“下载”，然后选择下载数据集文件或 JSON 格式的上传报表。

删除：若要删除数据集，请将鼠标悬停在数据集上时，请选择省略号，然后选择“删除”。

创建自定义语音识别模型

数据集用于创建和训练模型。创建纯文本数据集后，可以创建并开始使用自定义语音模型。

创建和使用自定义语音模型时，请记住以下几点：

新模型必须至少包含一个纯文本数据集，并且可以有多个纯文本数据集。
可以选择包含发音数据集，且不能包含多个发音数据集。
创建模型后，无法向其添加其他数据集或对其数据集执行任何修改。如果需要添加或修改数据集，请创建新的模型。
如果已使用自定义语音模型为视频编制索引，然后删除该模型，则除非执行重新编制索引，否则脚本不会受到影响。
如果删除了用于训练自定义模型的数据集，因为语音模型已由数据集训练，则它将继续使用它，直到删除语音模型。
如果删除自定义模型，则不会影响已使用该模型编制索引的视频的听录。

训练模型

注意

创建模型后，无法添加数据集。模型只能包含同一语言的数据集。

可通过两种方式训练模型 - 通过数据集选项卡和模型选项卡。

通过“数据集”选项卡训练模型

查看数据集列表。
选择纯文本数据集。 然后，可以选择上面的“训练新模型”图标。
选择“ 训练新模型”。
输入模型的名称、语言，并选择性地添加说明。
选择“数据集”选项卡
选择要包含在模型中的数据集。
选择“ 创建并训练”。

通过“模型”选项卡训练模型

选择“模型”选项卡。
选择“ 训练新模型 ”图标。
选择要成为模型的一部分的数据集。
输入模型的名称、语言，并选择性地添加说明。
选择“数据集”选项卡。
选择要包含在模型中的数据集。
选择“ 创建并训练”。

查看和更新模型

查看模型：可以通过单击模型的名称或将鼠标悬停在模型上时查看模型及其属性，单击省略号，然后选择“查看模型”。

然后，你将在“详细信息”选项卡中看到模型的名称、说明、语言和状态以及以下属性：

模型 ID：每个模型都有唯一的 GUID，在使用 API 引用模型的操作时需要该 GUID。

创建日期：创建模型的日期。

编辑详细信息：若要编辑模型的名称或说明，请将鼠标悬停在模型上时，选择省略号，然后选择“编辑详细信息”。然后，可以编辑模型的名称和说明。

注意

只能编辑模型的名称和说明。如果要对其数据集进行任何更改或添加数据集，则必须创建新的模型。

删除：若要删除模型，请将鼠标悬停在数据集上时，请选择省略号，然后选择“删除”。

包含的数据集：在“包含的数据集”选项卡上选择以查看模型的数据集。

为视频编制索引时使用自定义语言模型

默认情况下，自定义语言模型不用于索引作业，因此必须在索引上传过程中选择。

在上传过程中，从语言下拉菜单中选择自定义语言模型源。
选择“上传”。

如果要使用自定义模型重新编制视频索引，则相同的步骤适用。

注意

下面是一些与语音模型请求一起使用的参数的说明表：

名称	类型	说明
`displayName`	字符串	数据集/模型所需的名称。
`locale`	字符串	数据集/模型的语言代码。有关完整列表，请参阅语言支持。
`kind`	integer	0 表示纯文本数据集，1 表示发音数据集。
`description`	字符串	数据集/模型的可选说明。
`contentUrl`	uri	用于创建数据集的源文件的 URL。
`customProperties`	对象	数据集/模型的可选属性。

创建语音数据集

创建语音数据集请求创建用于训练语音模型的数据集。上传用于使用此请求创建数据集的文件。创建数据集后，无法修改数据集的内容。

定义请求正文中的参数，包括要上传的文本文件的 URL。说明和自定义属性字段是可选的。这是请求正文的示例：

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

示例响应

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

创建语音模型

创建语音模型请求创建和训练自定义语音模型，该模型可用于提高视频的听录准确性。它必须至少包含一个纯文本数据集。它可以选择性地具有发音数据集。创建它时，无法添加或更新与所有相关数据集文件作为模型的数据集。

在请求正文中定义参数，包括模型要包含的数据集或数据集的字符串列表。说明和自定义属性字段是可选的。这是请求正文的示例：

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

示例响应

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

获取语音数据集

获取语音数据集 API 返回有关指定数据集的信息。

示例响应

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

获取语音数据集文件

获取语音数据集文件请求返回指定数据集的文件和元数据。

示例响应

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

获取指定的帐户数据集

获取语音数据集请求返回有关所有指定帐户数据集的信息。

示例响应

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

获取指定的语音模型

获取语音模型 API 返回有关指定模型的信息。

示例响应

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

获取指定的帐户语音模型

获取语音模型 API 返回有关指定帐户中所有模型的信息。

示例响应

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

删除语音数据集

删除语音数据集 API 将删除指定的数据集。使用已删除数据集训练的任何模型将继续可用，直到删除模型。在数据集用于索引或训练时，无法删除数据集。

示例响应

成功删除数据集时，不会返回任何内容。

删除语音模型

删除语音模型 API 将删除指定的语音模型。不能在模型用于索引或训练时删除模型。

响应

成功删除语音模型时，没有返回的内容。

通过

自定义语音模型

先决条件

创建数据集

查看和更新数据集

创建自定义语音识别模型

训练模型

通过“数据集”选项卡训练模型

通过“模型”选项卡训练模型

查看和更新模型

为视频编制索引时使用自定义语言模型

创建语音数据集

示例响应

创建语音模型

示例响应

获取语音数据集

示例响应

获取语音数据集文件

示例响应

获取指定的帐户数据集

示例响应

获取指定的语音模型

示例响应

获取指定的帐户语音模型

示例响应

删除语音数据集

示例响应

删除语音模型

响应

反馈

其他资源