Присоединение домена или составного домена к ссылочным данным — службы качества данных (DQS)
Область применения: SQL Server
В этом разделе описывается, как присоединить домены или составные домены в качестве данных база знаний к справочной службе данных в Azure Marketplace для создания знаний по высококачественным эталонным данным. Каждая служба ссылочных данных содержит схему (столбцы данных). После добавления домена или составного домена к службе ссылочных данных необходимо сопоставить добавленный домен или отдельные домены в составе составного домена с соответствующими столбцами в схеме службы ссылочных данных. Добавление составного домена в службу ссылочных данных позволяет добавить только один домен в службу ссылочных данных, а затем сопоставить отдельные домены в составе составного домена с соответствующими столбцами в схеме службы ссылочных данных.
Внимание
В этой статье упоминаются сторонние службы ссылочных данных, которые ранее были доступны из Azure DataMarket. DataMarket и службы Data Services — включая данные об адресах Melissa — не поддерживаются после 31 декабря 2016 г. Таким образом, вы больше не можете запускать примеры в этой статье с помощью указанных служб из DataMarket. По-прежнему можно использовать службы эталонных данных, доступные через Интернет напрямую от сторонних поставщиков.
Предупреждение
Составной домен, добавленный в службу ссылочных данных, доступен в раскрывающемся списке доменов во время сопоставления доменов со столбцами в схеме службы ссылочных данных. Не сопоставляйте составной домен со столбцом в схеме службы ссылочных данных. Следует сопоставлять только отдельные домены в рамках составного домена с соответствующими столбцами в схеме службы ссылочных данных. В противном случае процесс завершится ошибкой.
Схема ссылочных данных может включать обязательный столбец, который в случае использования данной схемы требуется сопоставить со службой ссылочных данных. Обязательный столбец в схеме ссылочных данных идентифицируется символом (M), который расположен рядом с именем столбца. Например, AddressLine — это обязательный столбец схемы в таблице Адреса данных Мелиссы, а CompanyName — обязательный столбец схемы в таблице Digital Trowel Inc. — американские компании и профессиональные данные для пользователей SQL.
В этой статье мы создадим четыре домена: Адрес, Город, Штат и Почтовый индекс внутри составного домена Проверка адреса, подключим составной домен к службе ссылочных данных Данные Мелиссы — проверка адреса, а затем сопоставим отдельные домены внутри составного домена с соответствующими столбцами в схеме службы ссылочных данных.
Перед началом
Необходимые компоненты
Необходимо настроить службы качества данных (DQS), чтобы использовать эталонные службы данных. См. раздел Настройка служб DQS для использования эталонных данных.
Безопасность
Разрешения
Для сопоставления доменов со ссылочными данными необходимо иметь роль dqs_kb_editor в базе данных DQS_MAIN.
Сопоставление доменов со ссылочными данными из Melissa Data
Запустите клиент DQS. Сведения об этом см. в разделе "Запуск клиентского приложения качества данных".
На домашнем экране клиента "Качество данных" в разделе "Управление базой знаний" нажмите кнопку "Создать база знаний".
На экране Новая база знаний введите имя новой базы знаний, щелкните действие Управление доменами , а затем нажмите кнопку Создать.
Чтобы создать домен, на странице Управление доменами щелкните значок Создать домен . Создайте следующие четыре домена: Адрес, Город, Штати Zip-код.
Чтобы создать составной домен, щелкните значок Создать составной домен . В диалоговом окне Создать составной домен введите текст Проверка адреса в поле Имя составного домена и включите в составной домен все домены, созданные при выполнении шага 3. Щелкните OK.
На расположенной слева панели Домен выберите составной домен, щелкнув значение Проверка адреса, а затем перейдите на вкладку Ссылочные данные , расположенную справа.
Щелкните значок Обзор .
В диалоговом окне Каталог поставщиков ссылочных данных в сети выполните следующие действия.
В разделе Службы DataMarket Data Quality Services выберите поле Данные Мелиссы — проверка адреса.
Сопоставьте столбцы службы ссылочных данных "Данные Мелиссы — проверка адреса" с соответствующими доменами ("Адрес", "Город", "Штат" и "Почтовый индекс"). Для сопоставления столбцов выберите столбец службы ссылочных данных в столбце Схема RDS , а затем выберите соответствующий домен в столбце Домен . Для добавления в таблицу дополнительных строк щелкните значок Добавить элемент схемы .
Нажмите кнопку ОК , чтобы сохранить изменения и закрыть диалоговое окно Каталог поставщиков ссылочных данных в сети .
Примечание.
- В диалоговом окне каталога поставщиков ссылочных данных узел DataMarket Data Quality Services отображает все поставщики служб ссылочных данных, которые вы подписаны на Azure Marketplace. Если в DQS настроены непосредственные сетевые сторонние поставщики служб ссылочных данных, они включены в другой узел с именем Сторонние непосредственные сетевые поставщики (в данный момент этот узел недоступен, так как в DQS прямые сетевые сторонние поставщики служб ссылочных данных не настроены).
Откроется вкладка ссылочных данных . В области "Параметры поставщика" при необходимости измените значения в следующих полях:
Пороговое значение для автоматического исправления. Исправления из службы ссылочных данных со степенью достоверности, которая превышает это пороговое значение, выполняются автоматически. Введите значение в десятичной нотации для соответствующего значения в процентах. Например, введите 0,9 для 90 %.
Предлагаемые кандидаты. Количество предлагаемых вариантов для отображения из службы ссылочных данных.
Минимальная достоверность. Предложения из службы ссылочных данных со степенью достоверности, которая меньше данного значения, игнорируются. Введите значение в десятичной нотации для соответствующего значения в процентах. Например, введите 0,6 для 60 %.
Нажмите кнопку Готово , чтобы опубликовать базу знаний. После публикации базы знаний выдается сообщение с подтверждением.
Теперь этот база знаний можно использовать для очистки действий в проекте качества данных для стандартизации и очистки адресов США в исходных данных на основе знаний, предоставляемых Мелисса Data через Azure Marketplace.
Дальнейшие действия. После сопоставления домена со ссылочными данными
Создайте проект служб DQS и выполните действие очистки исходных данных, которые содержат адреса США, с помощью сравнения этих данных с базой знаний, созданной в данном разделе. См. статью "Очистка данных с помощью эталонных данных (внешних) знаний.