Запуск проекта сопоставления
В этом разделе описано, как выполнить сопоставление данных в Службы Data Quality Services (DQS). В процессе сопоставления выявляются кластеры соответствующих друг другу записей согласно правилам сопоставления в политике сопоставления, одна запись из каждого кластера обозначается как «выжившая» согласно правилу выживания, и результаты экспортируются. Процесс сопоставления в службах DQS, называемый также удалением дубликатов, является автоматизированным, однако правила сопоставления можно создавать интерактивно, также можно выбирать правило выживания из нескольких вариантов, таким образом можно управлять процессом сопоставления.
Сопоставление выполняется в три этапа: сопоставление, в ходе которого определяется источник данных и с источником данных сопоставляются домены; процесс сопоставления, в ходе которого выполняется анализ соответствия, выживание и экспорт, в ходе чего вы указываете правило выживания и экспортируете сопоставленные результаты. Каждый из этих процессов выполняется на отдельной странице мастера действия «Сопоставление», что позволяет переходить вперед и назад по различным страницам, повторно запускать процесс и завершать конкретный процесс сопоставления, а затем возвращаться к одной и той же стадии процесса. Служба DQS предоставляет статистические данные об исходных данных, правилах сопоставления и результатах сопоставления, которые позволяют принимать информированные решения о сопоставлении и оптимизировать процесс сопоставления.
Необходимо подготовиться к сопоставлению путем создания политики сопоставления с одним или несколькими правилами сопоставления, затем запустить политику с образцом данных. Процесс сопоставления проекта выполняется отдельно от процесса политики сопоставления, и база знаний не заполняется сопоставленным набором знаний, полученным из сопоставленного проекта. Дополнительные сведения о создании политики сопоставления см. в разделе Создание политики сопоставления.
В этом разделе
Перед началом работы выполните следующие действия.
Предварительные требования
Безопасность
Запуск проекта сопоставления
Стадия сопоставления
Стадия определения соответствия
Стадия выживания и экспорта
Дальнейшие действия: После запуска проекта сопоставления
Вкладки «Профилировщик» и «Результаты»
Перед началом работы
Предварительные требования
Вам необходимо создать базу знаний с политикой сопоставления, состоящей из одного или нескольких правил сопоставления.
На компьютере Клиент Data Quality должна быть установлена программа Microsoft Excel, если исходные данные, подлежащие сопоставлению, находятся в файле Excel. В противном случае на стадии сопоставления невозможно будет выбрать файл Excel. Файлы, созданные Microsoft Excel, могут иметь расширение XLSX, XLS или CSV. При использовании 64-разрядной версии Excel поддерживаются только файлы Excel 2003 (.xls), файлы Excel 2007 и 2010 (.xlsx) не поддерживаются. При использовании 64-разрядной версии Excel 2007 или 2010 сохраните файл как XLS- или CSV-файл либо вместо этого установите 32-разрядную версию Excel.
Безопасность
Разрешения
Для запуска проекта сопоставления необходимо иметь роль dqs_administrator или dqs_kb_editor в базе данных DQS_MAIN.
[В начало]
Первый шаг. Запуск проекта сопоставления
Выполните действие сопоставления в проекте служб DQS, созданном вами в клиентском приложении DQS.
Запустите клиент DQS. Дополнительные сведения об этой процедуре см. в разделе Запуск клиентского приложения DQS.
На главном экране Клиент Data Quality выберите Создать проект служб DQS, чтобы провести сопоставление в новом проекте служб DQS. Введите имя проекта служб DQS, введите описание и выберите базу знаний, которая будет использоваться для сопоставления, в поле Использовать базу знаний. Нажмите кнопку Сопоставление для действия. Чтобы перейти к этапу сопоставления, нажмите кнопку Далее.
Выберите Открыть проект служб DQS, чтобы выполнить сопоставление в существующем проекте служб DQS. Выберите проект и нажмите кнопку Далее. (Кроме того, вы можете щелкнуть проект в области Последние проекты служб DQS.) При открытии закрытого проекта сопоставления произойдет переход к этапу, на котором было закрыто действие проекта сопоставления (как указано в столбце Состояние в таблице проекта или в области имени проекта Последний открытый проект служб DQS). Если открыть завершенный проект сопоставления, отобразится страница Экспорт (на предыдущие экраны попасть нельзя).
[В начало]
Стадия сопоставления
На стадии сопоставления определяется источник данных, для которого запускается анализ сопоставления, а исходные столбцы сопоставляются с доменами, чтобы сделать домены доступными для действия сопоставления.
Чтобы запустить сопоставление для базы данных на странице Сопоставление, оставьте в поле Источник данных значение SQL Server, выберите базу данных, для которой нужно запустить сопоставление, и выберите таблицу. База данных-источник должна находиться на том же экземпляре SQL Server, где находится сервер служб DQS. В противном случае она не появится в раскрывающемся списке.
Чтобы запустить сопоставление для данных в электронной таблице Excel, выберите Файл Excel для Источника данных, нажмите кнопку Обзор и выберите файл Excel. При необходимости оставьте выбранным поле Использовать первую строку в качестве заголовка. В поле Лист выберите лист в файле Excel, который будет источником данных. На компьютере Клиент Data Quality должна быть установлена программа Excel, если исходные данные, подлежащие очистке, находятся в файле Excel. Если программа Excel не установлена на компьютере Клиент Data Quality, кнопка «Обзор» будет недоступна, а под этим текстовым полем появится уведомление об отсутствии Excel.
В пункте Сопоставления выберите поле в источнике данных для Исходного столбца, а затем выберите соответствующий домен. Повторите действия для всех доменов, используемых в процессе сопоставления. Каждый домен, определенный в политике сопоставления, должен быть сопоставлен с соответствующим исходным столбцом. На странице «Сопоставление» отображаются домены, определенные в политике сопоставления, и правила в политике сопоставления на панели справа.
Примечание Сопоставить исходные данные с доменом служб DQS возможно, только если исходный тип данных поддерживается службами DQS и совпадает с типом данных домена DQS. Сведения о поддерживаемых службами DQS типах данных см. в разделе Типы данных SQL Server и службы SSIS, поддерживаемые для доменов DQS.
Для добавления строки в таблицу «Сопоставления» щелкните значок плюс (+), а для удаления строки — значок минус (–).
Щелкните значок Предварительный просмотр источника данных для просмотра данных в таблице SQL Server, в выбранных представлениях или в выбранных листах Excel.
Для просмотра списка составных доменов, доступных в базе знаний и выбранных для сопоставления, нажмите кнопку Просмотр/выбор составных доменов.
Чтобы перейти к этапу сопоставления, нажмите кнопку Далее.
Примечание Нажмите кнопку Закрыть, чтобы сохранить стадию сопоставления проекта и вернуться на домашнюю страницу DQS. При следующем открытии данного проекта он будет запущен в том же состоянии. Нажмите кнопку Отмена, чтобы завершить действие сопоставления, отменить результаты работы и вернуться на домашнюю страницу DQS.
[В начало]
Стадия определения соответствия
На этом этапе выполняется автоматизированный процесс сопоставления, который показывает, сколько соответствий имеется в источнике данных при данных правилах сопоставления. На выходе этого процесса формируется таблица результатов сопоставления, показывающая кластеры, выявленные службами DQS — у каждой записи в кластере будет свой идентификатор и показатель сопоставления, а также начальная старшая запись для кластера. Старшая запись в кластере выбирается случайным образом. «Выживающие» записи определяются правилом выживания, выбранным на странице Экспорт при запуске проекта сопоставления. Каждая дополнительная строка в кластере считается сопоставлением. Ее показатель сопоставления (по сравнению со старшей записью) приводится в таблице результатов. Номер кластера совпадает с идентификатором старшей записи в кластере.
В результатах сопоставления вы можете отфильтровывать нужные данные, отбрасывая ненужные сопоставления. Также вы можете отобразить данные профилирования для процесса сопоставления в целом, индивидуальные условия применяемых правил сопоставления и статистику результатов сопоставления в целом. Процесс сопоставления позволяет выявлять перекрытие неперекрывающихся кластеров, а при многократном запуске можно применять его к вновь скопированным и повторно индексированным данным из источника, либо к прежним данным.
На странице Сопоставление выберите из раскрывающегося списка пункт Перекрывающиеся кластеры для отображения сводных записей и следующих записей для всех кластеров при выполнении сопоставления, даже если группы кластеров имеют общие записи. Для отображения кластеров, которые имеют общие записи, в качестве единого кластера при выполнении сопоставления выберите пункт Неперекрывающиеся кластеры.
Для копирования данных из источника данных в промежуточную таблицу и их повторной индексации при выполнении проекта сопоставления щелкните Перезагрузить данные из источника (по умолчанию). Для запуска проекта сопоставления без копирования данных в промежуточную таблицу и повторной индексации данных щелкните Выполнить на предыдущих данных. Пункт Выполнить на предыдущих данных отсутствует при первом запуске проекта сопоставления или при изменении сопоставления на странице Сопоставление и нажатии кнопки Да во всплывающем окне. В обоих этих случаях необходимо произвести повторную индексацию. Нет необходимости в выполнении повторной индексации, если проект сопоставления не был изменен. Выполнение на предыдущих данных может повысить производительность.
Нажмите кнопку Пуск, чтобы запустить сопоставление для выбранного источника данных.
Нажмите кнопку Остановить, если нужно остановить проект сопоставления и отменить результаты.
После завершения процесса сопоставления проверьте правильность кластеров в таблице Результаты сопоставления, затем просмотрите статистику на вкладках Профилировщик и Результаты сопоставления, чтобы убедиться, что получены требуемые результаты. Просмотрите сопоставленные записи, выбрав Сопоставленные в области Фильтр, либо просмотрите несопоставленные записи, выбрав Несопоставленные.
Если в политике сопоставления задано несколько правил сопоставления, щелкните вкладку Правила сопоставления, чтобы задать значок для каждого правила, затем просмотрите, какое правило определило ту или иную запись в качестве сопоставления, определив правило в столбце Правило таблицы Результаты сопоставления.
Если выбрать несводную запись в таблице и щелкнуть значок Просмотреть подробные сведения (или дважды щелкнуть запись), службы DQS отобразят всплывающее меню Подробные сведения о показателе сопоставления, где будет показана запись, на которой произведен двойной щелчок, и ее сводная запись (со значениями во всех соответствующих полях), показатель сопоставления между ними и детализация факторов показателя сопоставления для каждого поля. Двойной щелчок сводной записи не приводит к отображению всплывающего меню.
Щелкните значок Свернуть все, чтобы свернуть записи в таблице Результаты сопоставления. Будет отображаться только сводная запись, без повторяющихся записей. Щелкните значок Развернуть все, чтобы развернуть записи в таблице «Результаты сопоставления», включая все повторяющиеся записи.
Чтобы убрать запись из результатов сопоставления, установите флажок Отклонено для записи.
Чтобы изменить минимальный показатель сопоставления, определяющий уровень сопоставления, необходимый для отображения записи, выберите значок Минимальный показатель сопоставления в верхней правой части таблицы, затем введите число. Минимальный показатель сопоставления по умолчанию составляет 80%. Нажмите кнопку Обновить, чтобы изменить содержание таблицы.
После завершения анализа данных кнопка Пуск преобразуется в кнопку Перезапустить. Нажмите кнопку Перезапустить для повторного запуска проекта анализа. Однако если результаты предыдущего анализа еще не были сохранены, то после нажатия кнопки Перезапустить ранее полученные данные теряются. Чтобы продолжить нажмите кнопку Да во всплывающем меню. Во время выполнения анализа не уходите с этой страницы, поскольку процесс анализа будет прекращен.
Нажмите кнопку Далее, чтобы перейти к этапу выживания и экспорта.
[В начало]
Стадия выживания и экспорта
В процессе выживания службы Data Quality Services определяют для каждого кластера выжившую запись, которая заменит другие, совпадающие с ней записи в кластере. Затем службы экспортируют результаты сопоставления или выживания в таблицу в базе данных SQL Server, в CSV-файл или файл Excel.
Выживание является необязательным. Вы можете экспортировать результаты без запуска выживания, и в этом случае службы DQS будут использовать сводную запись, определенную в ходе анализа сопоставления. Если правилу выживания соответствуют в кластере две записи или более, то процесс выживания выберет из конфликтующих записей в качестве выжившей запись с меньшим идентификатором. Вы можете экспортировать выжившие записи в различные файлы или таблицы с помощью разных правил выживания.
На странице Экспорт выберите в области Тип назначения назначение, куда следует экспортировать данные сопоставления: SQL Server, CSV-файл или Файл Excel.
Важно! Если используется 64-разрядная версия Excel, то нельзя экспортировать совпадающие данные в файл Excel. Можно экспортировать данные только в базу данных SQL Server или в CSV-файл.
Если выбран SQL Server как Тип назначения, выберите базу данных для экспорта результатов в поле Имя базы данных.
Важно! Целевая база данных должна находиться на том же экземпляре SQL Server, где находится сервер служб DQS. В противном случае она не появится в раскрывающемся списке.
Установите флажок Результаты сопоставления для экспорта результатов сопоставления (см. объяснение выше) для указанной таблицы в базе данных SQL Server, либо для указанного CSV-файла или файла Excel. Установите флажок Результаты выживания для экспорта результатов выживания (см. объяснение выше) для указанной таблицы в базе данных SQL Server, либо для указанного CSV-файла или файла Excel.
В качестве результатов сопоставления будут экспортированы следующие данные:
Список кластеров и сопоставленных записей в каждом кластере, в том числе имя правила и показатель сопоставления. Сводная запись будет отмечена как «Сводная». Кластеры будут отображаться в списке экспорта первыми.
Список несопоставленных записей со значением NULL в столбцах «Показатель» и «Имя правила». Эти записи будут присоединены к списку экспорта после кластеров.
Следующие данные будут экспортированы в качестве результатов выживания:
Список выживших записей, определенных процессом выживания согласно правилу выживания. Эти записи отображаются в списке экспорта первыми.
Список несопоставленных записей, не включенных в кластеры сопоставленных записей. Эти записи присоединяются после выживших результатов.
Если выбран SQL Server как Тип назначения, введите имена таблиц для экспорта результатов в поле Имя таблицы. Если экспортируются и результаты сопоставления, и результаты выживания, то у целевых таблиц должны быть разные имена, уникальные в базе данных.
Если выбран CSV-файл как Тип назначения, имя и путь к CSV-файлу для экспорта в поле Имя CSV-файла.
Если выбран Файл Excel как Тип назначения, введите имя и путь к файлу Excel для экспорта в поле Имя файла Excel. Нельзя экспортировать в файл Excel, если используется 64-разрядная версия Excel.
Выберите правило выживания следующим образом:
Выберите вариант Сводная запись (по умолчанию) для определения выжившей записи в качестве первоначальной сводной записи, выбранной произвольно службами DQS.
Выберите вариант Наиболее полная и самая длинная запись, чтобы определить выжившую запись как запись с самым большим количеством заполненных полей, а также максимальным количеством терминов в каждом поле. Проверяются все исходные поля, даже те, что не были сопоставлены с доменом на странице Сопоставление.
Выберите вариант Наиболее полная запись, чтобы определить выжившую запись как запись с самым большим количеством заполненных полей. В заполненном поле должно быть хотя бы одно значение (строковое, числовое или то и другое). Проверяются все исходные поля, даже те, что не были сопоставлены с доменом на странице «Сопоставление». В заполненном поле должно быть хотя бы одно значение (строковое, числовое или то и другое).
Выберите вариант Самая длинная запись, чтобы определить выжившую запись как запись с самым большим количеством терминов в исходных полях. Чтобы определить длину каждой записи, службы DQS проверяют длину терминов во всех исходных полях, даже в тех полях, что не были сопоставлены с доменом на странице Сопоставление.
Просмотрите статистику на вкладке Профилировщик, чтобы проверить правильность полученного результата.
Нажмите кнопку Экспорт, чтобы экспортировать результаты. Отобразится диалоговое окно «Экспорт сопоставления», в котором будет показан ход выполнения, а затем результаты экспорта.
Если в качестве назначения для данных был выбран вариант SQL Server, то в выбранной базе данных будет создана новая таблица с указанным именем.
Если в качестве назначения для данных был выбран вариант CSV-файл, то в указанном месте на компьютере Сервер DQS будет создан CSV-файл с именем, указанным ранее в поле Имя CSV-файла.
Если в качестве назначения для данных был выбран вариант Файл Excel, то в этом месте на компьютере Сервер DQS будет создан XLSX-файл с именем, указанном ранее в поле Имя файла Excel.
Убедитесь, что экспорт завершен успешно, и нажмите кнопку Закрыть.
Для завершения проекта сопоставления нажмите кнопку Готово.
Примечание Если вы завершите проект сопоставления, а затем воспользуетесь им снова, то в нем будет использоваться база знаний из того места, в котором она находилась при публикации. Какие-либо изменения, внесенные в базу знаний после завершения проекта, не будут использоваться. Чтобы использовать эти изменения, либо использовать новую базу знаний, придется создать новый проект сопоставления. С другой стороны, если вы создали проект сопоставления, но не завершили его, любые изменения, опубликованные в политике сопоставления, будут использоваться при запуске сопоставления в этом проекте.
[В начало]
Дальнейшие действия. после запуска проекта сопоставления
После запуска проекта сопоставления вы можете изменить политику сопоставления в базе знаний, затем создать и запустить еще один проект сопоставления на основе обновленной политики сопоставления. Дополнительные сведения см. в разделе Создание политики сопоставления.
[В начало]
Вкладки «Профилировщик» и «Результаты»
На вкладках «Профилировщик» и «Результаты» находятся статистические данные по процессу сопоставления.
Вкладка «Профилировщик»
Перейдите на вкладку Профилировщик, чтобы отобразить статистические данные для базы данных-источника и для каждого поля, входящего в правило политики. Статистические данные будут обновляться по мере выполнения правила политики. Профилирование поможет оценить эффективность действия по удалению дублирующихся записей, что позволяет определить, в какой степени процесс может способствовать улучшению качества данных. Точность профилирования не важна для проекта сопоставления.
К статистическим данным базы данных-источника относятся следующие данные.
Записи. Общее количество записей в базе данных
Всего значений. Общее число значений в полях
Новые значения. Общее число значений, которые являются новыми после предыдущего запуска, и их процент от целого
Уникальные значения. Общее количество уникальных значений в полях и их процент от целого
Новые уникальные значения. Общее количество уникальных значений, которые являются новыми в полях, и их процент от целого
Статистические данные поля включают следующее:
Поле. Имя поля, которое было включено в сопоставления.
Домен. Имя домена, который был сопоставлен с полем.
Новые. Количество новых сопоставлений и их процентная доля от общего количества
Уникальное. Количество уникальных записей в поле и их процент от общего количества
Полнота. Процентная доля завершения выполнения правила.
Уведомления политики сопоставления
Следующие условия для действия политики сопоставления приводят к уведомлениям.
Поле не заполнено во всех записях. Рекомендуется исключить его из сопоставления.
Показатель полноты поля очень низкий. Может потребоваться исключение этого поля из сопоставления.
Все значения в поле являются недопустимыми. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.
В этом поле низкий уровень допустимых значений. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.
В этом поле высокий уровень уникальности. С помощью этого поля в политике сопоставления можно уменьшить количество результатов сопоставления.
Вкладка «Правила сопоставления»
Щелкните эту вкладку, чтобы отобразить список правил в политике сопоставления и условиях правила.
Список правил
Отображает список всех правил сопоставления в политике сопоставления. Выберите одно из правил, чтобы отобразить условия для правила сопоставления в таблице правил сопоставления.Таблица правил сопоставления
Отображает каждое условие выбранного правила, в том числе домен, значение подобия, вес и выбор необходимого условия.
Вкладка «Результаты сопоставления»
Щелкните вкладку Результаты сопоставления, чтобы просмотреть статистику анализа источника данных с использованием набора знаний, выбранных для проекта, и правил сопоставления в этой базе знаний. К статистическим данным относятся следующие данные.
Общее количество записей в базе данных
Общее количество записей сопоставления в базе данных
Количество записей в базе данных, которые не считаются повторяющимися
Количество обнаруженных кластеров
Средний размер кластера (количество повторяющихся записей, деленное на количество кластеров)
Наименьшее число дубликатов в кластере
Наибольшее число дубликатов в кластере