在知识发现中从 Excel 文件中导入域
本主题介绍如何在 Data Quality Services (DQS) 知识发现活动中从 Excel 文件导入一个或多个域。 该导入过程简化了知识生成过程,并且可以节省时间和精力。 借助这一方法,在 Excel 文件或文本文件中具有数据的人士能够创建包含这些数据的知识库。 (请参阅将值从 Excel 文件导入域,详细了解如何将值导入到现有 知识库.) 不支持导出到 Excel 文件。
开始之前
先决条件
若要从 Excel 文件导入域,必须在安装Data Quality Client的计算机上安装 Excel;必须已创建包含域值的 Excel 文件 (请参阅导入工作原理) ;并且必须创建并打开一个知识库才能将域导入到其中。
安全性
权限
您必须具有针对 DQS_MAIN 数据库的 dqs_kb_editor 或 dqs_administrator 角色,才能从 Excel 文件导入域。
将域从 Excel 文件中导入到知识库中
启动数据质量客户端。 有关执行此操作的信息,请参阅运行 Data Quality Client 应用程序。
在Data Quality Client主屏幕中,执行下列操作之一:
通过以下方式创建要导入的新知识库:单击 “新建知识库”,为新知识库输入名称,为 “创建知识库自” 选择 “无”,选择 “知识发现” 活动,然后单击 “创建”。
通过以下方式打开要导入的现有知识库:单击 “打开知识库”,选择知识库,选择 “知识发现”,然后单击 “下一步”。
在“映射” 页中,为“数据源” 选择“Excel 文件” 。
在 “Excel 文件” 行中单击 “浏览” 。
在 “选择 Excel 文件” 对话框中,移到包含您要从其导入的 Excel 文件的文件夹,选择该 Excel 文件,然后单击 “打开”。
从 “工作表” 下拉列表中,选择您要从其导入的 Excel 文件中的工作表。
如果您希望第一行作为数据标头,并且希望第一行中的值用作列名称,则选择 “将第一行用作标头” 。 如果您希望第一行作为数据值,则取消选择 “将第一行用作标头” ,在此情况下,DQS 将使用 Excel 标头名称(字母)用于列。
选择某一列,然后或者将某个现有域映射到该列,或者创建一个新域,方法是单击 “创建域” 图标,在 “创建域” 对话框中创建一个域,然后将该域映射到该列。 该域的数据类型必须与该列的数据类型匹配。 为电子表格的所有列重复上述步骤。
单击“下一步”。
在 “发现” 页中,单击 “开始” 以便分析 Excel 电子表格中的数据。
注意
如果在上载完数据前离开该页,则文件上载过程将终止。
验证分析已成功完成,然后单击 “下一步”。
在 “管理域值” 页中,验证在 “域” 列表中列出了正确的域并且在域表中输入了值。
单击 “完成”,然后单击 “发布” 以便发布知识库,或者单击 “否” 以便不发布。
验证知识库已发布,然后单击 “确定”。
跟进:在从 Excel 文件导入域后
在从 Excel 文件导入域之后,您可以将知识添加到域中,或在清理或匹配项目中使用域,具体取决于域的内容。 有关详细信息,请参阅执行知识发现、管理域、管理复合域、创建匹配策略、数据清理或数据匹配。
How the import works
在导入操作中,DQS 按如下所示解释 Excel 文件:
列表示域
行表示数据记录
第一行或者表示域名,或者是第一个数据值或记录,视 “将第一行用作标题” 复选框的设置而定。
下列规则适用于导入操作:
此操作将域值导入到知识库中。 它不导入域规则或匹配策略。
该 Excel 文件可以具有扩展名 .xlsx、.xls 或 .csv。 Microsoft Excel 必须安装在Data Quality Client计算机上才能导入域值或完整域。 支持 Excel 版本 2003 和更高版本。 如果使用 64 位版本的 Excel,将仅支持 Excel 2003 文件;而不支持 Excel 2007 或 2010 文件。
Excel 64 位安装不支持 .xlsx 类型的 Excel 文件。 如果您使用的是 64 位 Excel,将以 .xls 文件保存电子表格文件。
在 .xlsx 和 .xls 文件中,列的数据类型由前八行中最主要的数据类型确定。 如果某一单元不符合该数据类型,将向它提供 null 值。
在 .csv 文件中,数据类型由前八行中的主要数据类型确定。
Excel 电子表格中不符合域规则的值将作为无效值导入。
如果该 Excel 文件未采用正确的格式或已损坏,则导入操作将导致错误。