在知识发现中从 Excel 文件中导入域

本主题介绍如何在 Data Quality Services (DQS) 知识发现活动中从 Excel 文件导入一个或多个域。 该导入过程简化了知识生成过程,并且可以节省时间和精力。 借助这一方法,在 Excel 文件或文本文件中具有数据的人士能够创建包含这些数据的知识库。 (请参阅将值从 Excel 文件导入域,详细了解如何将值导入到现有 知识库.) 不支持导出到 Excel 文件。

开始之前

先决条件

若要从 Excel 文件导入域,必须在安装Data Quality Client的计算机上安装 Excel;必须已创建包含域值的 Excel 文件 (请参阅导入工作原理) ;并且必须创建并打开一个知识库才能将域导入到其中。

安全性

权限

您必须具有针对 DQS_MAIN 数据库的 dqs_kb_editor 或 dqs_administrator 角色,才能从 Excel 文件导入域。

将域从 Excel 文件中导入到知识库中

  1. 启动数据质量客户端。 有关执行此操作的信息,请参阅运行 Data Quality Client 应用程序

  2. 在Data Quality Client主屏幕中,执行下列操作之一:

    • 通过以下方式创建要导入的新知识库:单击 “新建知识库”,为新知识库输入名称,为 “创建知识库自” 选择 “无”,选择 “知识发现” 活动,然后单击 “创建”

    • 通过以下方式打开要导入的现有知识库:单击 “打开知识库”,选择知识库,选择 “知识发现”,然后单击 “下一步”

  3. 在“映射” 页中,为“数据源” 选择“Excel 文件”

  4. “Excel 文件” 行中单击 “浏览”

  5. “选择 Excel 文件” 对话框中,移到包含您要从其导入的 Excel 文件的文件夹,选择该 Excel 文件,然后单击 “打开”

  6. “工作表” 下拉列表中,选择您要从其导入的 Excel 文件中的工作表。

  7. 如果您希望第一行作为数据标头,并且希望第一行中的值用作列名称,则选择 “将第一行用作标头” 。 如果您希望第一行作为数据值,则取消选择 “将第一行用作标头” ,在此情况下,DQS 将使用 Excel 标头名称(字母)用于列。

  8. 选择某一列,然后或者将某个现有域映射到该列,或者创建一个新域,方法是单击 “创建域” 图标,在 “创建域” 对话框中创建一个域,然后将该域映射到该列。 该域的数据类型必须与该列的数据类型匹配。 为电子表格的所有列重复上述步骤。

  9. 单击“下一步”。

  10. “发现” 页中,单击 “开始” 以便分析 Excel 电子表格中的数据。

    注意

    如果在上载完数据前离开该页,则文件上载过程将终止。

  11. 验证分析已成功完成,然后单击 “下一步”

  12. “管理域值” 页中,验证在 “域” 列表中列出了正确的域并且在域表中输入了值。

  13. 单击 “完成”,然后单击 “发布” 以便发布知识库,或者单击 “否” 以便不发布。

  14. 验证知识库已发布,然后单击 “确定”

跟进:在从 Excel 文件导入域后

在从 Excel 文件导入域之后,您可以将知识添加到域中,或在清理或匹配项目中使用域,具体取决于域的内容。 有关详细信息,请参阅执行知识发现管理域管理复合域创建匹配策略数据清理数据匹配

How the import works

在导入操作中,DQS 按如下所示解释 Excel 文件:

  • 列表示域

  • 行表示数据记录

  • 第一行或者表示域名,或者是第一个数据值或记录,视 “将第一行用作标题” 复选框的设置而定。

下列规则适用于导入操作:

  • 此操作将域值导入到知识库中。 它不导入域规则或匹配策略。

  • 该 Excel 文件可以具有扩展名 .xlsx、.xls 或 .csv。 Microsoft Excel 必须安装在Data Quality Client计算机上才能导入域值或完整域。 支持 Excel 版本 2003 和更高版本。 如果使用 64 位版本的 Excel,将仅支持 Excel 2003 文件;而不支持 Excel 2007 或 2010 文件。

  • Excel 64 位安装不支持 .xlsx 类型的 Excel 文件。 如果您使用的是 64 位 Excel,将以 .xls 文件保存电子表格文件。

  • 在 .xlsx 和 .xls 文件中,列的数据类型由前八行中最主要的数据类型确定。 如果某一单元不符合该数据类型,将向它提供 null 值。

  • 在 .csv 文件中,数据类型由前八行中的主要数据类型确定。

  • Excel 电子表格中不符合域规则的值将作为无效值导入。

  • 如果该 Excel 文件未采用正确的格式或已损坏,则导入操作将导致错误。