运行匹配项目
本主题介绍如何在 Data Quality Services (DQS) 中执行数据匹配。 该匹配过程基于匹配策略中的匹配规则标识匹配记录的群集,基于存活规则将每个群集中的一个记录指定为存活,并且导出结果。 DQS 还在计算机辅助过程中执行匹配过程(也称作消除重复),但您以交互方式创建匹配规则,并且从若干选择中选择存活规则,以便控制匹配过程。
执行匹配分为三个阶段:映射过程,在此过程中您可以确定数据源并将域映射到数据源;匹配过程,在此过程中您可以运行匹配分析;以及存活和导出过程,在此过程中您可以指定存活规则并导出匹配结果。 将在匹配活动向导的单独页面上执行上述每个过程,这使您可以在不同页面之间来回移动,重新运行过程,并结束特定的匹配过程和返回到过程的相同阶段。 DQS 向您提供有关源数据、匹配规则和匹配结果的统计信息,使您能够针对匹配制定明智的决策,从而优化匹配过程。
您必须通过创建具有一个或多个匹配规则的匹配策略,然后对示例数据运行该策略,为匹配进行准备。 匹配项目过程独立于匹配策略过程,并且不使用从匹配项目获取的匹配知识填充知识库。 有关创建匹配策略的详细信息,请参阅 Create a Matching Policy。
开始之前
先决条件
您必须使用由一个或多个匹配规则构成的匹配策略创建了知识库。
如果要匹配的源数据位于 Excel 文件中,则必须在Data Quality Client计算机上安装 Microsoft Excel。 否则,您在映射阶段中将无法选择 Excel 文件。 由 Microsoft Excel 创建的文件可以具有 .xlsx、.xls 或 .csv 扩展名。 如果使用 64 位版本的 Excel,则仅支持 Excel 2003 文件 (.xls);而不支持 Excel 2007 或 2010 文件 (.xlsx)。 如果您使用的是 64 位版本的 Excel 2007 或 2010,则将文件另存为 .xls 文件或 .csv 文件,或者改而安装 32 位版本的 Excel。
安全性
权限
您必须对 DQS_MAIN 数据库具有 dqs_kb_editor 或 dqs_administrator 角色,才能运行匹配项目。
第一步:启动匹配项目
您在 DQS 客户端应用程序中创建的数据质量项目中执行匹配活动。
启动数据质量客户端。 有关执行此操作的信息,请参阅运行 Data Quality Client 应用程序。
在Data Quality Client主屏幕中,单击“新建数据质量项目”以在新的数据质量项目中执行匹配。 输入数据质量项目的名称,输入说明,然后在 “使用知识库”中选择要用于匹配的知识库。 对于活动单击 “匹配” 。 单击 “下一步” 以进入映射阶段。
单击 “打开数据质量项目” 以便在现有数据质量项目中执行匹配。 选择项目,然后单击 “下一步”。 (或者单击“ 最近的数据质量项目”下的项目。) 如果打开已关闭的匹配项目,将转到匹配项目活动在 (中关闭的阶段,如项目表中的 “状态” 列或“ 最近数据质量项目) ”下的项目名称所示。 如果您打开已完成的匹配项目,则将进入 “导出” 页(并且将无法返回到之前的屏幕)。
映射阶段
在映射阶段中,您确定要对其运行匹配分析的数据源,并将源列映射到域以使域可用于匹配活动。
在 “映射” 页上,若要对数据库运行匹配,请将 “数据源” 保留为 SQL Server,选择要对其运行匹配的数据库,然后选择表。 源数据库必须与 DQS 服务器位于同一 SQL Server 实例中。 否则,该数据库不会显示在下拉列表中。
若要在 Excel 电子表格中对数据运行匹配,请为 “数据源” 选择 “Excel 文件”,单击 “浏览” 并选择 Excel 文件,然后根据需要使 “将第一行用作标头” 保留选中状态。 在 “工作表”中,在 Excel 文件中选择要成为数据源的工作表。 必须在Data Quality Client计算机上安装 Excel 才能选择 Excel 文件。 如果Data Quality Client计算机上未安装 Excel,“浏览”按钮将不可用,并在此文本框下通知你 Excel 未安装。
在 “映射”下,为 “源列”选择数据源中的一个字段,然后选择对应的域。 对匹配过程中使用的所有域重复此过程。 在匹配策略中定义的每个域都必须映射到适当的源列。 “映射”页显示已在匹配策略中定义的域,并且在右侧窗格中显示匹配策略中的规则。
注意
仅当源数据类型在 DQS 中受支持且与 DQS 域数据类型匹配时,才能将源数据映射到 DQS 域。 有关 DQS 中支持的数据类型的信息,请参阅 DQS 域支持的 SQL Server 和 SSIS 数据类型。
单击“加号 (+)”控件可向映射表中添加行,单击“减号 (-)”控件可删除行。
单击 “预览数据源” 可查看您选择的 SQL Server 表或视图中的数据,或查看您所选 Excel 工作表中的数据。
单击 “查看/选择复合域” 以查看知识库中可用复合域的列表,并根据需要选择用于映射的复合域。
单击 “下一步” 以进入匹配阶段。
注意
单击 “关闭” 可保存匹配项目的这一阶段,并返回到 DQS 主页。 下次打开此项目时,它将从同一阶段启动。 单击 “取消” 可结束匹配活动,不保存所做的工作,并返回到 DQS 主页。
匹配阶段
在此阶段中,您将执行一个计算机辅助匹配过程,该过程基于匹配规则显示在源数据中有多少个匹配项。 此过程将生成一个匹配结果表,显示 DQS 已标识的群集、群集中的每个记录及其记录 ID 和匹配分数以及群集的初始前导记录。 群集中的前导记录是随机选定的。 当您运行匹配项目时,将通过在 “导出” 页上选择存活规则来确定存活记录。 群集中的每个附加行都被认为是匹配项;结果表中会提供其匹配分数(与前导记录比较)。 群集编号与此群集中的前导记录的记录 ID 相同。
在匹配结果中,您可以对所需数据进行筛选,并且拒绝不想要的匹配项。 您可以作为一个总体来显示匹配过程的事件探查数据、有关应用的匹配规则的特定情况以及作为一个整体显示有关匹配结果的统计信息。 匹配过程可以标识重叠或非重叠的群集;并且如果多次运行,可对从源新复制和重新索引的数据执行,或者对之前的数据执行。
在 “匹配”页上,从下拉列表中选择 “重叠的群集” ,以便在执行匹配后显示透视记录以及所有群集的以下记录,即使各组群集具有共同的记录也不例外。 选择 “不重叠的群集” ,以便在执行匹配后显示具有共用记录作为单个群集的群集。
单击 “自源重新加载数据” (默认设置),以便在运行匹配项目后,将数据源中的数据复制到临时表并对其重新编制索引。 单击 “针对以往数据执行” 以运行匹配项目,而不将数据复制到临时表和对数据重新编制索引。 对于第一次运行匹配项目,或如果您在“映射” 页中更改映射,然后在出现的弹出菜单中按 “是” ,则 “针对以往数据执行” 为禁用状态。 在这两种情况下,您都必须重新编制索引。 如果匹配项目未发生变化,则不需要重新编制索引。 “针对以往数据执行”有助于改善性能。
单击 “开始” 可对所选数据源运行匹配。
如果您想要停止匹配项目并且放弃结果,则单击 “停止” 。
在匹配过程完成后,确认 “匹配结果” 表中的群集是适当的,并且在 “事件探查器” 和 “匹配结果” 选项卡中查看统计信息,以便确保您在将所需的结果存档。 通过为 “筛选器” 选择 “匹配” ,查看匹配的记录;或者通过选择 “不匹配”,查看不匹配的记录。
如果您在匹配策略中具有多个匹配规则,则单击 “匹配规则” 选项卡以便标识各规则的图标,然后通过在 “匹配结果” 表的 “规则” 列中标识规则,确认哪一规则将记录标识为匹配项。
如果您在该表中选择某一非透视记录,并且单击 “查看详细信息” 图标(或者双击该记录),DQS 将显示 “匹配分数详细信息” 弹出窗口,其中将显示双击的记录及其透视记录(及其所有字段中的值)、它们之间的分数以及各记录的匹配分数分布的深化信息。 双击透视记录将不会显示该弹出窗口。
单击 “全部折叠” 图标将折叠在 “匹配结果” 表中显示的记录,以便仅包含透视记录,而不包含重复记录。 单击 “全部展开” 将展开在“匹配结果”表中显示的记录,以便包含所有重复记录。
若要拒绝来自匹配结果的记录,请单击该记录的 “拒绝” 复选框。
若要更改确定记录必须显示的匹配级别的最低匹配分数,请选择表右侧上方的 “最低匹配分数 ”图标,然后输入更大的数字。 默认情况下,最低匹配分数设为 80%。 单击 “刷新” 可更改表的内容。
分析完成后, “启动” 按钮将变为 “重新启动” 按钮。 单击 “重新启动” 以便再次运行分析项目。 但是,如果前一分析的结果尚未保存,则单击 “重新启动” 将导致先前的数据丢失。 若要继续,请在弹出窗口中单击 “是” 。 当分析正在运行时,不要离开页面,否则分析进程将被终止。
单击 “下一步” 以进入存活和导出阶段。
存活和导出阶段
在存活过程中,Data Quality Services 将确定每个群集的存活记录,这将替换该群集中与其匹配的其他记录。 然后,该服务会将匹配和/或存活结果导出到 SQL Server 数据库的表、.csv 文件或 Excel 文件中。
存活是可选的。 您可以不运行存活便导出结果,在此情况下,DQS 将使用在匹配分析中指定的透视记录。 如果群集中两个或更多的记录符合存活规则,则存活过程将选择冲突记录中最低的记录 ID 作为存活记录。 您可以使用不同的存活规则将存活记录导出到不同的文件或表。
在 “导出” 页上,在 “目标类型”中选择您要将匹配数据导出到的目标: “SQL Server”、 “CSV 文件”或 “Excel 文件”。
重要
如果您使用的是 64 位版本的 Excel,则无法将匹配数据导出到 Excel 文件;只能导出到 SQL Server 数据库或 .csv 文件。
如果您为 “目标类型” 选择了 “SQL Server”,则在 “数据库名称”中选择要将结果导出到的数据库。
重要
目标数据库必须与 DQS 服务器位于同一 SQL Server 实例中。 否则,该数据库不会显示在下拉列表中。
选中 “匹配结果” 复选框可将匹配结果(请参阅上面的说明)导出到 SQL Server 数据库中的指定表或者指定的 .csv 或 Excel 文件。 选中 “存活结果” 复选框可将存活结果(请参阅上面的说明)导出到 SQL Server 数据库中的指定表或者指定的 .csv 或 Excel 文件。
下面将是为匹配结果导出的内容:
群集的列表以及各群集中的匹配记录,包括规则名称和分数。 透视记录将被标记为“透视”。 群集将首先在导出列表中出现。
不匹配记录的列表,在“分数”和“规则名称”列中具有“NULL”。 这些记录将追加到导出列表中的群集后。
下面将是为存活结果导出的内容:
存活过程根据存活规则确定的存活记录的列表。 这些记录将首先在导出列表中出现。
未在匹配记录的群集中包含的不匹配记录的列表。 这些记录将追加到存活结果后。
如果您为 “目标类型” 选择了 “SQL Server”,则在 “表名”中输入要将结果导出到的表的名称。 如果您一起导出匹配结果和存活结果,则目标表必须具有对于数据库唯一的不同名称。
如果您为 “目标类型” 选择了 “CSV 文件”,则在 “CSV 文件名称”中输入要将结果导出到的 CSV 文件的名称和路径。
如果您为 “目标类型” 选择了 “Excel 文件”,则在 “Excel 文件名”中输入要将结果导出到的 Excel 文件的名称和路径。 如果您使用的是 64 位版本的 Excel,将无法导出到 Excel 文件。
按如下说明选择存活规则:
选择 “透视记录” (默认设置)可将存活记录标识为 DQS 任意选择的初始透视记录。
选择 “最完整且最长的记录” 可将存活记录标识为具有最大填充字段数且在各字段中具有最大字词数的记录。 将选中所有源字段,即使是那些在 “映射” 页上未映射到某个域的字段。
选择 “最完整记录” 可将存活记录标识为具有最大填充字段数的记录。 填充的字段包含至少一个值(字符串和/或数字)。 将选中所有源字段,即使是那些在“映射”页上未映射到某个域的字段。 填充的字段包含至少一个值(字符串和/或数字)。
选择 “最长记录” 可将存活记录标识为在其源字段中具有最大字词数的记录。 为了确定每个记录的长度,DQS 将标识所有源字段中字词的长度,即使是那些在 “映射” 页上未映射到某个域的字段。
在 “事件探查器” 选项卡上查看统计信息,以确保您获得所需的结果。
单击 “导出” 导出结果。 这将显示“匹配导出”对话框,其中将显示进度以及导出结果。
如果您选择了 SQL Server 作为数据目标,将在选定数据库中创建具有指定名称的新表。
如果选择 CSV 文件 作为数据目标,则会在 Data Quality Server 计算机上的位置创建一个.csv文件,其中包含前面在 “Csv 文件名 ”框中指定的文件名。
如果选择 Excel 文件 作为数据目标,则会在 Data Quality Server 计算机上的位置创建一个.xlsx文件,其中包含前面在 Excel 文件名 框中指定的文件名。
验证导出已成功完成,然后单击 “关闭”。
单击 “完成” 即可完成匹配项目。
注意
如果您已完成了某个匹配项目,然后再次使用该项目,则它将使用在发布时具有的知识库。 它将不会使用自您完成了该项目后对知识库进行的任何更改。 若要使用这些更改,或使用新的知识库,将必须创建一个新的匹配项目。 另一方面,如果您已创建、但未完成某一匹配项目,则当您在该项目中运行匹配时,将使用已发布到匹配策略的任何更改。
跟进:在运行匹配项目之后
在运行某一匹配项目后,您可以在知识库中更改匹配策略,并且基于更新的匹配策略创建和运行另一个匹配项目。 有关详细信息,请参阅 Create a Matching Policy。
Profiler and Results Tabs
“事件探查器”和“结果”选项卡包含针对匹配过程的统计信息。
“事件探查器”选项卡
单击 “事件探查器” 选项卡以显示源数据库以及策略规则中包含的每个字段的统计信息。 当运行策略规则时,将更新统计信息。 事件探查可帮助您评估消除重复过程的效用,并且帮助确定该过程可在多大程度上提高数据的质量。 事件探查中的准确性对于匹配项目而言不重要。
源数据库统计信息包括:
记录:数据库中的记录总数
值总计:各字段中的值的总数
新值:自上次运行后的新值总数及其占总体的百分比
唯一值:字段中唯一值的总数及其占总体的百分比
新的唯一值:字段中新唯一值的总数及其占总体的百分比
字段统计信息包括:
字段:映射中包含的字段的名称。
域:已映射到字段的域的名称。
新:新找到的匹配项的数量及其占总数的百分比
唯一:字段中唯一记录的数目及其占总数的百分比
完整性:规则运行完毕所占的百分比。
匹配策略通知
对于匹配策略活动,以下条件会导致发送通知:
在所有记录中该字段为空;建议您从映射消除它。
字段完整性分数很低;您最好从映射中消除它。
字段中的所有值都无效;您应该验证映射以及域规则与字段内容的相关性。
字段中的有效值为低级别;您应该验证映射以及域规则与字段内容的相关性。
此字段中存在高级别的唯一性。 在匹配策略中使用此字段可以减少匹配结果。
“匹配规则”选项卡
单击此选项卡可显示匹配策略中的规则的列表以及规则中的条件。
规则列表
显示匹配策略中所有匹配规则的列表。 选择其中一个规则可显示“匹配规则”表中规则的条件。
“匹配规则”表
显示所选规则中的每个条件,包括域、相似值、权重和必备条件部分。
“匹配结果”选项卡
单击 “匹配结果” 选项卡可使用为项目选择的知识以及该知识库中的匹配规则显示针对数据源的分析的统计信息。 统计信息包括:
数据库中的记录总数
数据库中的匹配记录总数
数据库中不被视为重复的记录数
发现的群集数目
平均群集大小(重复记录数除以群集数目)
群集中重复项的最小数量
群集中重复项的最大数量