Очистка данных

Очистка данных — это процесс анализа качества данных в источнике данных с выполняемым вручную утверждением или отклонением рекомендаций, даваемых системой, и внесением изменений в данные. Очистка данных в службах Службы Data Quality Services (DQS) состоит из автоматического процесса, анализирующего соответствие данных знаниям из базы знаний, и интерактивного процесса, позволяющего диспетчеру данных проверять и изменять результаты автоматического процесса, чтобы обеспечить надлежащий результат очистки данных.

Диспетчер данных также может выполнять очистку данных в процессе обработки пакетов служб Integration Services. В этом случае диспетчер данных должен использовать компонент Компонент DQS Cleansing служб Integration Services, который автоматически выполняет очистку данных на основе существующей базы знаний. Дополнительные сведения см. в разделе Преобразование «Очистка DQS».

Функция очистки данных в DQS имеет следующие преимущества.

  • Выявление неполных или неверных данных в источнике данных (файле Excel или базе данных SQL Server) с последующим исправлением данных или оповещением пользователя о недопустимых данных.

  • Двухэтапный процесс очистки данных: автоматический и интерактивный. В автоматическом процессе используются знания из базы знаний DQS для автоматической обработки данных и создания рекомендаций по замене и исправлению. На следующем интерактивном этапе диспетчер данных может утвердить, отклонить или изменить операции, рекомендованные DQS в рамках автоматической очистки.

  • Стандартизация и дополнение данных клиента с использованием значений домена, правил домена и эталонных данных. Например, стандартизация использования термина путем замены «ул.» на «улица», дополнение данных путем добавления пропущенных элементов (замена «1 Microsoft way Redmond 98006» на «1 Microsoft Way, Redmond, WA 98006».

  • Простой, интуитивно понятный и предсказуемый пользовательский интерфейс на основе мастеров для просмотра данных и проверки ошибок в очень крупных наборах данных.

На следующем рисунке показана очистка данных в DQS.

Процесс очистки данных в DQS

В этом разделе

  • Автоматическая очистка

  • Интерактивная очистка

  • Исправление начального значения

  • Стандартизация очищенных данных

Автоматическая очистка

Процесс очистки данных DQS применяет знания из базы знаний к данным, которые должны быть очищены, и предлагает изменения для данных. Диспетчер данных имеет доступ к каждому предложенному изменению, что позволяет ему оценить изменения и внести в них поправки. Для очистки данных диспетчер данных выполняет следующие действия.

  1. Создание проекта качества данных, выбор базы знаний, по которой проводится анализ и очистка исходных данных, и выбор операции Очистка. Одну и ту же базу знаний можно использовать для нескольких проектов качества данных.

  2. Указание таблицы/представления базы данных или файла Excel, содержащего исходные данные для очистки. Можно использовать базу данных или файл Excel, которые участвовали в обнаружении знаний, или другую базу данных либо файл Excel.

    ПримечаниеПримечание

    Если выбрать для обнаружения знаний и операции очистки один источник данных, то в данных не будет изменений. Рекомендуется выполнять обнаружение знаний в образце данных, а затем проводить очистку исходных данных по знаниям, построенных в рамках обнаружения знаний.

  3. Сопоставление полей данных для очистки с подходящими доменами и составными доменами в базе знаний. Если сопоставить поле с составным доменом, то сопоставление выполняется между полем и составным доменом, а не с отдельными доменами, входящими в составной. Кроме того, очистка данных для сопоставленного поля выполняется на основе правил, заданных для составного домена, а не для отдельных доменов, входящих в составной. Дополнительные сведения о составных доменах см. в разделе Базы знаний и домены DQS.

  4. Выполнение автоматического процесса очистки путем нажатия кнопки Запуск на странице Очистка.

Процесс очистки данных ищет наилучшее соответствие экземпляра данных известным значениям домена данных. Этот процесс применяет знания о качестве данных ко всем исходным данным, в отличие от процесса обнаружения знаний, который выполняется только в процентной выборке данных.

В автоматическом процессе сведения о качестве данных отображаются в клиенте Клиент Data Quality, который будет использоваться в интерактивном процессе очистки. Помимо поиска несоответствия синтаксическим правилам, службы DQS также используют эталонные данные и дополнительные алгоритмы для разделения данных по категориям в соответствии с уровнем достоверности. Уровень достоверности определяет экстент уверенности DQS в исправлении данных или создаваемых рекомендациях. Уровень достоверности зависит от следующих пороговых значений.

  • Пороговое значение автоматического исправления, при превышении которого DQS предлагает изменение и вносит его, если диспетчер данных не отклонит изменение. Пороговое значение автоматического исправления вы можете задать на вкладке Общие параметры экрана Конфигурация. Дополнительные сведения см. в разделе Настройка пороговых значений для очистки и сопоставления.

  • Пороговое значение автоматической рекомендации, которое ниже порогового значения автоматического исправления. При его превышении DQS предлагает изменение и вносит его, если диспетчер утвердит изменение. Пороговое значение автоматической рекомендации вы можете задать на вкладке Общие параметры экрана Конфигурация. Дополнительные сведения см. в разделе Настройка пороговых значений для очистки и сопоставления.

Любое значение с уровнем достоверности ниже порогового значения автоматической рекомендации оставляется DQS без изменений, если диспетчер данных не указывает изменение.

Значок стрелки, используемый со ссылкой «В начало»[Top]

Интерактивная очистка

По результатам автоматического процесса очистки DQS предоставляет диспетчеру данных необходимую информацию для принятия решения об изменении данных. DQS классифицирует данные по пяти следующим вкладкам.

  • Рекомендуемые. Значения, для которых DQS обнаружил рекомендации, имеющие уровень достоверности выше порогового значения автоматической рекомендации, но ниже порогового значения автоматического исправления. Необходимо просмотреть эти значения и либо утвердить, либо отклонить их.

  • Новые. Допустимые значения, для которых DQS не имеет достаточной информации (рекомендаций) и которые нельзя поместить ни в одну из других вкладок. Эта вкладка также содержит значения, которые имеют уровень достоверности меньше порогового значения автоматической рекомендации, но достаточно высокую, чтобы значения были отмечены как допустимые.

  • Недопустимые. Значения, которые были помечены как недопустимые в домене базы знаний, или значения, которые оказались несоответствующими правилам домена или эталонным данным. На этой вкладке также содержатся значения, отклоненные пользователем на остальных четырех вкладках в ходе интерактивного процесса очистки.

  • Исправленные. Значения, которые были исправлены DQS в процессе автоматической очистки, поскольку для значения обнаружено исправление с уровнем достоверности выше порогового значения автоматического исправления. На этой вкладке также содержатся значения, для которых пользователь указал правильное значение в столбце Исправить на в ходе интерактивной очистки, а затем утвердил значение, выбрав переключатель в столбце Утвердить на любой из четырех других вкладок.

  • Правильные. Обнаруженные правильные значения. Например, значение, которое соответствует значению домена. В случае необходимости вы можете переопределить очистку DQS, отклонив значения на этой вкладке или указав альтернативное слово в столбце Исправить на, а затем выбрав переключатель в столбце Принять. На этой вкладке также содержатся значения, утвержденные пользователем в ходе интерактивной очистки путем выбора переключателя в столбце Утвердить на вкладке Новые или Недопустимые.

ПримечаниеПримечание

На вкладках Рекомендуемые, Исправленные и Правильные DQS показывает начальное значение для домена (если применимо) в столбце Исправить на для соответствующего значения домена.

Диспетчер данных использует клиент Клиент Data Quality для просмотра изменений, предложенных DQS, и принятия решения о необходимости их применения. Диспетчер может проверить значения, обозначенные DQS как правильные. Диспетчер данных может проверить, внесены ли изменения с высоким уровнем достоверности, уже внесенные службами DQS. Диспетчер данных может принять или отклонить изменения, предложенные автоматически. Диспетчер данных может просмотреть значения, которые не были изменены, на случай, если в них необходимо внести изменения, даже если автоматический процесс этого не обнаружил.

DQS объединяет все изменения, внесенные диспетчером данных, с результатами автоматической очистки данных. Изменения останутся с проектом, но не будут добавлены в базу знаний. Во время очистки данных соответствующая база знаний доступна только для чтения.

После завершения процесса очистки данных вы можете экспортировать обработанные данные в новую таблицу в базе данных SQL Server, в CSV-файл или файл Excel. Исходные данные, для которых выполнялась очистка, остаются в исходном состоянии. Диспетчер данных может использовать отдельные очищенные данные для исправления фактических исходных данных.

На следующем рисунке показана очистка данных в приложении Клиент Data Quality.

Очистка данных в клиенте Data Quality

Значок стрелки, используемый со ссылкой «В начало»[Top]

Исправление начального значения

Исправление начального значения относится к значениям домена, имеющим синонимы, когда пользователю нужно использовать один из синонимов в качестве начального значения для согласованного представления этого значения. Например, термины «Петербург», «Санкт-Петербург» и «Северная столица» являются синонимами, а пользователю нужно использовать начальное значение «Санкт-Петербург». DQS поддерживает исправление начального значения в процессе очистки для упрощения стандартизации данных. Исправление начального значения выполняется, только если при создании домена в нем была включена эта операция. По умолчанию исправление начального значения включается для всех доменов, если при создании домена не снят флажок Использовать начальные значения. Дополнительные сведения об этом флажке см. в разделе Установка свойств домена.

Значок стрелки, используемый со ссылкой «В начало»[Top]

Стандартизация очищенных данных

Вы можете выбрать, будут ли очищенные данные экспортироваться в стандартном формате на основе формата вывода, определенного для доменов. При создании домена вы можете выбрать форматирование, которое будет применяться при выводе значений данных в домене. Дополнительные сведения об указании форматов вывода для домена см. в списке Формат вывода в разделе Установка свойств домена.

При экспорте очищенных данных на странице Экспорт в мастере проектов качества данных указывается, будут ли очищенные данные экспортироваться в стандартном формате. Для этого устанавливается флажок Стандартный вывод. По умолчанию очищенные данные экспортируются в стандартном формате, то есть этот флажок установлен. Дополнительные сведения об экспорте очищенных данных см. в разделе Очистка данных с использованием набора знаний служб DQS (внутренних).

Значок стрелки, используемый со ссылкой «В начало»[Top]

Связанные задачи

Описание задачи

Раздел

Описывает настройку пороговых значений для операции очистки.

Настройка пороговых значений для очистки и сопоставления

Описывает очистку данных с использованием знаний, построенных в DQS.

Очистка данных с использованием набора знаний служб DQS (внутренних)

Описывает очистку данных с использованием знаний, полученных от службы эталонных данных.

Очистка данных с использованием знаний о справочных данных (внешних знаний)

Описывает очистку составного домена.

Очистка данных в составном домене

См. также

Основные понятия

Проекты служб Data Quality Services (DQS)

Сопоставление данных