Очистка данных в составном домене
В этом разделе описывается очистка составных доменов в службах Службы Data Quality Services (DQS). Составной домен состоит из нескольких отдельных доменов и соответствует полю данных, которое включает несколько связанных терминов. Отдельные домены в составном домене должны иметь общие области набора знаний. Дополнительные сведения о составных доменах см. в разделе Управление составным доменом.
В этом разделе
Сопоставление составного домена с исходными данными
Коррекция данных с использованием определительных междоменных правил
Профилирование данных для составных доменов
Сопоставление составного домена с исходными данными
Существует два способа сопоставления исходных данных с составным доменом.
Исходные данные соответствуют одному полю (например, это «Полное имя»), которое сопоставляется с составным доменом.
Если составной домен сопоставлен со службой ссылочных данных, то исходные данные будут отправлены в службу ссылочных данных без изменений для исправления и анализа.
Если составной домен не сопоставлен со службой ссылочных данных, то исходные данные будут проанализированы с использованием метода, определенного для составного домена. Дополнительные сведения об указании метода анализа для составных доменов см. в разделе Создание составного домена.
Исходные данные состоят из нескольких полей (например, это «Имя», «Отчество» и «Фамилия»), которые сопоставлены с отдельными доменами внутри составного домена.
Пример сопоставления составных доменов с исходными данными см. в разделе Добавление домена или составного домена к ссылочным данным.
[Top]
Коррекция данных с использованием определительных междоменных правил
Междоменные правила в составном домене позволяют определять отношения между отдельными доменами в составном домене. Междоменные правила учитываются при выполнении очистки для исходных данных с использованием составных доменов. Помимо информирования о выполнении междоменного правила определительное междоменное правило Then, Value is equal to, также исправляет данные во время проведения очистки данных.
Рассмотрим следующий пример. Имеется составной домен Product с тремя отдельными доменами: ProductName, CompanyName и ProductVersion. Создайте следующее определительное междоменное правило:
IF Domain ‘CompanyName’ Value contains Microsoft and Domain ‘ProductName’ Value is equal to Office and ‘ProductVersion’ Value is equal to 2010 THEN Domain ‘ProductName’ Value is equal to Microsoft Office 2010.
При применении этого междоменного правила исходные данные (ProductName) после очистки исправляются на следующие:
Исходные данные |
Выходные данные |
||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
При тестировании определительного междоменного правила Then, Value is equal to диалоговое окно Тестирование правила для составного домена содержит новый столбец Исправить на, в котором отображаются правильные данные. В проекте очистки данных служб DQS это определительное междоменное правило меняет данные со 100%-ной достоверностью, а в столбце Причина отображается следующее сообщение: Исправлено на основании правила <имя междоменного правила>. Дополнительные сведения о междоменных правилах см. в разделе Создание междоменного правила.
Примечание |
---|
Определительное междоменное правило не работает для составных доменов, присоединенных к службе ссылочных данных. |
[Top]
Профилирование данных для составных доменов
Профилирование DQS предоставляет два измерения качества данных: полнота (степень, в которой представлены данные) и точность (степень, в которой данные могут использоваться по намеченному назначению) во время очистки. Профилирование может не предоставлять надежных статистических данных по полноте для составных доменов. Если требуются статистические данные по полноте, используйте одиночные домены вместо составных. Если необходимо использовать составные домены, то может потребоваться создать одну базу знаний с одиночными доменами для профилирования в целях определения полноты и создать еще одну базу данных с составным доменом для процесса очистки. Например, профилирование может показать полноту 95% для записей адреса в составном домене, но для одного из столбцов (например, столбца почтового индекса) уровень неполноты может оказаться гораздо больше. В этом примере может потребоваться измерить полноту столбца почтового индекса с помощью одиночного домена.
Профилирование с большей вероятностью вы можете предоставить надежные статистические данные по точности для составных доменов, поскольку позволяет измерить точность для нескольких столбцов вместе. Значение этих данных находится в составном агрегате, поэтому может потребоваться измерить точность с помощью составного домена.
Дополнительные сведения о профилировании данных во время очистки см. в разделе Profiler Statistics in Очистка данных с использованием набора знаний служб DQS (внутренних).
[Top]