Очистка данных с использованием знаний о справочных данных (внешних знаний)
В этом разделе описывается очистка данных с использованием набора знаний из поставщиков ссылочных данных. Все этапы запуска действия по очистке данных с использованием набора знаний из поставщика ссылочных данных точно такие же, как описано в разделе Очистка данных с использованием набора знаний служб DQS (внутренних), а в данном разделе приведены сведения по очистке данных с использованием службы ссылочных данных в Службы Data Quality Services (DQS).
При очистке данных с использованием функции службы ссылочных данных в DQS процесс очистки служб DQS отправляет сопоставленные значения домена поставщику служб ссылочных данных в виде пакетного запроса. Служба ссылочных данных в ответ отправляет следующие сведения:
Предлагаемые исправления
Достоверность
Дополнительные сведения о сопоставленном домене. Ссылочные данные позволяют также стандартизировать, выполнять анализ или обогащать источник дополнительными данными. Эти сведения предоставляются в дополнительных полях в ответе.
После получения ответа от службы ссылочных данных в ходе действия по очистке в DQS происходит следующее.
На основе значений Пороговое значение автоматического исправления и Минимальная достоверность, заданных при сопоставлении доменов со службой ссылочных данных, происходит автоматическое исправление или предоставление предлагаемых вариантов, в зависимости от уровня достоверности.
Примечание Пороговые значения, указанные во время сопоставления домена со службой ссылочных данных, применяются при очистке данных с использованием набора знаний в службе ссылочных данных, а не данных, указанных на вкладке Общие параметры в разделе Настройка. Сведения об указании пороговых значений для очистки ссылочных данных см. в шаге 9 в разделе Добавление домена или составного домена к ссылочным данным.
Значения доменов категоризируются следующим образом: Предлагаемое, Новое, Недопустимое, Исправленное и Правильное.
Дополнительные данные присоединены к источнику, а сведения доступны вместе с очищенными данными для экспорта.
В этом разделе
Перед началом работы выполните следующие действия.
Предварительные требования
Безопасность
Очистка данных с использованием набора знаний о ссылочных данных
Перед началом
Предварительные требования
Следует предварительно сопоставить требуемые домены в базе знаний DQS с соответствующей службой ссылочных данных. Кроме того, база знаний должна содержать набор знаний о типе данных, которые требуется очистить. Например, если требуется очистить исходные данные, содержащие адреса в США, необходимо сопоставить домены с поставщиком службы ссылочных данных, предоставляющим высококачественные данные по адресам в США. Дополнительные сведения см. в разделе Добавление домена или составного домена к ссылочным данным.
Безопасность
Разрешения
Для выполнения очистки данных необходимо иметь роль dqs_kb_editor или dqs_kb_operator в базе данных DQS_MAIN.
[В начало]
Очистка данных с использованием набора знаний о ссылочных данных
Мы продолжим рассматривать этот же пример использования доменов, которые сопоставлялись в предыдущем разделе Добавление домена или составного домена к ссылочным данным, со службой Melissa Data в Windows Azure Marketplace. Теперь мы будем использовать те же домены для очистки образцов адресов в США. Шаги по очистке данных такие же, как описано в разделе Очистка данных с использованием набора знаний служб DQS (внутренних). Однако мы будем привлекать ваше внимание к важным деталям в ходе этого процесса.
Создайте проект служб DQS и выберите действие Очистка. См. раздел Создание проекта служб DQS.
На странице Сопоставление сопоставьте следующие 4 домена с соответствующими столбцами в исходных данных: Строка адреса, Город, Штат и Почтовый индекс. Нажмите кнопку Далее.
Примечание После того как все 4 домена будут сопоставлены внутри составного домена Проверка адресов, очистку данных можно будет выполнять на уровне составного домена, а не отдельных доменов.
На странице Очистка запустите автоматизированный процесс очистки. Для этого нажмите кнопку Пуск. После завершения процесса очистки нажмите кнопку Далее.
Примечание На странице Очистка службы DQS отображают сведения о доменах, присоединенных к службе ссылочных данных, двумя способами.
Под кнопкой Пуск отображается сообщение: «Выполняется очистка доменов <домен1>, <домен2>… <доменN> с использованием поставщика службы ссылочных данных». В этом примере отображается следующее сообщение: «Выполняется очистка домена "Проверка адресов" с использованием поставщика службы ссылочных данных».
Значок отображается в области Профилировщик напротив доменов, присоединенных к поставщику службы ссылочных данных. В этом примере значок будет отображаться напротив составного домена Проверка адресов.
На странице Управление результатами и просмотр результатов просмотрите значения домена. Служба ссылочных данных может отображать, если доступно, несколько предлагаемых значений, количество которых зависит от максимума, заданного в поле Предлагаемые варианты во время сопоставления домена со службой ссылочных данных. Например, для следующего адреса в США отображаются два предлагаемых варианта.
Исходное значение
Предлагаемые значения
Строка адреса
Город
Штат
Почтовый индекс
1 msft way
Redmond
98052
Строка адреса
Город
Штат
Почтовый индекс
1 Microsoft Way
Redmond
WA
98052
PO Box 1
Redmond
WA
98073
Примечание Что касается составных доменов, то службы DQS выделяют также другим цветом отдельные домены, где в процессе автоматизированной очистки вносились исправления. Например, в данном случае исправлениям подвергались домены Строка адреса и Штат, поэтому они выделены голубым.
После окончания просмотра всех значений домена нажмите кнопку Далее, чтобы экспортировать данные.
Обратите внимание, что на странице Экспорт, помимо обычных сведений о действии очистки для каждого домена («Источник», «Причина», «Достоверность» и «Состояние»), будут находиться дополнительные сведения, предоставленные службой ссылочных данных Melissa Data по данным адресов: широта и долгота места, страна, тип адреса (высотный дом, улица и т. д) и т. п.
Экспортируйте данные в нужное назначение (SQL Server, CSV или Excel) и нажмите кнопку Готово, чтобы закрыть проект.
Важно! Если используется 64-разрядная версия Excel, то нельзя экспортировать очищенные данные в файл Excel. Можно экспортировать данные только в базу данных SQL Server или в CSV-файл.
[В начало]