Очистка данных с использованием знаний о справочных данных (внешних знаний)

В этом разделе описывается очистка данных с использованием набора знаний из поставщиков ссылочных данных. Все этапы запуска действия по очистке данных с использованием набора знаний из поставщика ссылочных данных точно такие же, как описано в разделе Очистка данных с использованием набора знаний служб DQS (внутренних), а в данном разделе приведены сведения по очистке данных с использованием службы ссылочных данных в Службы Data Quality Services (DQS).

При очистке данных с использованием функции службы ссылочных данных в DQS процесс очистки служб DQS отправляет сопоставленные значения домена поставщику служб ссылочных данных в виде пакетного запроса. Служба ссылочных данных в ответ отправляет следующие сведения:

  • Предлагаемые исправления

  • Достоверность

  • Дополнительные сведения о сопоставленном домене. Ссылочные данные позволяют также стандартизировать, выполнять анализ или обогащать источник дополнительными данными. Эти сведения предоставляются в дополнительных полях в ответе.

После получения ответа от службы ссылочных данных в ходе действия по очистке в DQS происходит следующее.

  • На основе значений Пороговое значение автоматического исправления и Минимальная достоверность, заданных при сопоставлении доменов со службой ссылочных данных, происходит автоматическое исправление или предоставление предлагаемых вариантов, в зависимости от уровня достоверности.

    ПримечаниеПримечание

    Пороговые значения, указанные во время сопоставления домена со службой ссылочных данных, применяются при очистке данных с использованием набора знаний в службе ссылочных данных, а не данных, указанных на вкладке Общие параметры в разделе Настройка. Сведения об указании пороговых значений для очистки ссылочных данных см. в шаге 9 в разделе Добавление домена или составного домена к ссылочным данным.

  • Значения доменов категоризируются следующим образом: Предлагаемое, Новое, Недопустимое, Исправленное и Правильное.

  • Дополнительные данные присоединены к источнику, а сведения доступны вместе с очищенными данными для экспорта.

В этом разделе

  • Перед началом работы выполните следующие действия.

    Предварительные требования

    Безопасность

  • Очистка данных с использованием набора знаний о ссылочных данных

Перед началом

Предварительные требования

Следует предварительно сопоставить требуемые домены в базе знаний DQS с соответствующей службой ссылочных данных. Кроме того, база знаний должна содержать набор знаний о типе данных, которые требуется очистить. Например, если требуется очистить исходные данные, содержащие адреса в США, необходимо сопоставить домены с поставщиком службы ссылочных данных, предоставляющим высококачественные данные по адресам в США. Дополнительные сведения см. в разделе Добавление домена или составного домена к ссылочным данным.

Безопасность

Разрешения

Для выполнения очистки данных необходимо иметь роль dqs_kb_editor или dqs_kb_operator в базе данных DQS_MAIN.

Значок стрелки, используемый со ссылкой «В начало»[В начало]

Очистка данных с использованием набора знаний о ссылочных данных

Мы продолжим рассматривать этот же пример использования доменов, которые сопоставлялись в предыдущем разделе Добавление домена или составного домена к ссылочным данным, со службой Melissa Data в Windows Azure Marketplace. Теперь мы будем использовать те же домены для очистки образцов адресов в США. Шаги по очистке данных такие же, как описано в разделе Очистка данных с использованием набора знаний служб DQS (внутренних). Однако мы будем привлекать ваше внимание к важным деталям в ходе этого процесса.

  1. Создайте проект служб DQS и выберите действие Очистка. См. раздел Создание проекта служб DQS.

  2. На странице Сопоставление сопоставьте следующие 4 домена с соответствующими столбцами в исходных данных: Строка адреса, Город, Штат и Почтовый индекс. Нажмите кнопку Далее.

    ПримечаниеПримечание

    После того как все 4 домена будут сопоставлены внутри составного домена Проверка адресов, очистку данных можно будет выполнять на уровне составного домена, а не отдельных доменов.

  3. На странице Очистка запустите автоматизированный процесс очистки. Для этого нажмите кнопку Пуск. После завершения процесса очистки нажмите кнопку Далее.

    ПримечаниеПримечание

    На странице Очистка службы DQS отображают сведения о доменах, присоединенных к службе ссылочных данных, двумя способами.

    • Под кнопкой Пуск отображается сообщение: «Выполняется очистка доменов <домен1>, <домен2>… <доменN> с использованием поставщика службы ссылочных данных». В этом примере отображается следующее сообщение: «Выполняется очистка домена "Проверка адресов" с использованием поставщика службы ссылочных данных».

    • Значок Домен прикреплен к RDS отображается в области Профилировщик напротив доменов, присоединенных к поставщику службы ссылочных данных. В этом примере значок будет отображаться напротив составного домена Проверка адресов.

  4. На странице Управление результатами и просмотр результатов просмотрите значения домена. Служба ссылочных данных может отображать, если доступно, несколько предлагаемых значений, количество которых зависит от максимума, заданного в поле Предлагаемые варианты во время сопоставления домена со службой ссылочных данных. Например, для следующего адреса в США отображаются два предлагаемых варианта.

    Исходное значение

    Предлагаемые значения

    Строка адреса

    Город

    Штат

    Почтовый индекс

    1 msft way

    Redmond

    98052

    Строка адреса

    Город

    Штат

    Почтовый индекс

    1 Microsoft Way

    Redmond

    WA

    98052

    PO Box 1

    Redmond

    WA

    98073

    Очистка с помощью службы ссылочных данных

    ПримечаниеПримечание

    Что касается составных доменов, то службы DQS выделяют также другим цветом отдельные домены, где в процессе автоматизированной очистки вносились исправления. Например, в данном случае исправлениям подвергались домены Строка адреса и Штат, поэтому они выделены голубым.

  5. После окончания просмотра всех значений домена нажмите кнопку Далее, чтобы экспортировать данные.

  6. Обратите внимание, что на странице Экспорт, помимо обычных сведений о действии очистки для каждого домена («Источник», «Причина», «Достоверность» и «Состояние»), будут находиться дополнительные сведения, предоставленные службой ссылочных данных Melissa Data по данным адресов: широта и долгота места, страна, тип адреса (высотный дом, улица и т. д) и т. п.

  7. Экспортируйте данные в нужное назначение (SQL Server, CSV или Excel) и нажмите кнопку Готово, чтобы закрыть проект.

    Важное примечаниеВажно!

    Если используется 64-разрядная версия Excel, то нельзя экспортировать очищенные данные в файл Excel. Можно экспортировать данные только в базу данных SQL Server или в CSV-файл.

Значок стрелки, используемый со ссылкой «В начало»[В начало]