Качество данных

Качество данных — это функция управления облачной аналитикой. Он находится в целевой зоне управления данными и является основной частью управления.

Рекомендации по качеству данных

Качество данных является ответственностью каждого человека, который создает и использует продукты данных. Создатели должны придерживаться глобальных правил и правил домена, а потребители должны сообщать о несоответствиях данных в домен данных владельцев через цикл обратной связи.

Так как качество данных влияет на все данные, предоставляемые советом, он должен начинаться в верхней части организации. Совет должен иметь аналитические сведения о качестве предоставленных им данных.

Однако упреждающим по-прежнему требуется наличие экспертов по качеству данных, которые могут очистить контейнеры данных, требующие исправления. Избегайте отправки этой работы в центральную команду и вместо этого нацелены на домен данных с определенными знаниями о данных для очистки данных.

Метрики качества данных

Метрики качества данных являются ключевыми для оценки и повышения качества продуктов данных. На глобальном и доменном уровне необходимо решить вопрос о качествах метрик. Как минимум, рекомендуется использовать следующие метрики.

Метрики Определения метрик
Полнота = % общего числа без значений NULL + nonblanks Измеряет доступность данных, поля в наборе данных, которые не пусты, и значения по умолчанию, которые были изменены. Например, если запись включает в себя 01.01.1900 как данные о рождении, скорее всего, поле никогда не заполнялось.
Уникальность = % неупликированных значений Измеряет различные значения в заданном столбце по сравнению с количеством строк в таблице. Например, учитывая четыре уникальных значения цвета (красный, синий, желтый и зеленый) в таблице с пятью строками, это поле равно 80 % (или 4/5).
Согласованность = % данных с шаблонами Измеряет соответствие в заданном столбце ожидаемому типу данных или формату. Например, поле электронной почты, содержащее отформатированные адреса электронной почты, или поле имени с числовыми значениями.
Допустимость= % соответствия ссылок Измеряет успешное сопоставление данных с набором ссылок на домен. Например, учитывая поле страны или региона (в соответствии со значениями таксономии) в системе транзакционных записей, значение "US of A" недопустимо.
Точность= % от неуправляемых значений Измеряет успешное воспроизведение предполагаемых значений в нескольких системах. Например, если счет-фактура содержит номер SKU и расширенную цену, которая отличается от исходного заказа, элемент строки счета неточен.
Компоновка = % хорошо интегрированных данных Измеряет успешную связь со сведениями о компаньоне в другой системе. Например, если в счете указан неправильный номер SKU или описание продукта, элемент строки счета недоступен.

Профилирование данных

Профилирование данных проверяет продукты данных, зарегистрированные в каталоге данных, и собирает статистику и сведения об этом. Чтобы предоставить сводные и трендовые представления о качестве данных с течением времени, сохраните эти данные в репозитории метаданных в продукте данных.

Профили данных помогают пользователям отвечать на вопросы о продуктах данных, в том числе:

  • Могу ли я с помощью этого источника данных решить свою бизнес-проблему?
  • Соответствуют ли данные определенным стандартам или шаблонам?
  • Каковы аномалии этого источника данных?
  • Каковы возможные проблемы интеграции этих данных в мое приложение?

Пользователи могут просматривать профиль продукта данных с помощью панели мониторинга отчетов в marketplace данных.

Вы можете сообщить о таких элементах, как:

  • Полнота. Указывает процент данных, которые не пустые или null
  • Уникальность. Указывает процент данных, которые не дублируются
  • Согласованность. Указывает данные, в которых поддерживается целостность данных

Рекомендации по качеству данных

Чтобы реализовать качество данных, необходимо использовать как человеческую, так и вычислительную мощность следующим образом:

  • Используйте решения, включающие алгоритмы, правила, профилирование данных и метрики.

  • Используйте эксперты домена, которые могут выполнить шаг, когда требуется обучить алгоритм из-за большого количества ошибок, проходящих через уровень вычислений.

  • Проверьте рано. Традиционные решения применяют проверки качества данных после извлечения, преобразования и загрузки данных. К этому времени продукт данных уже используется и ошибки, связанные с подчиненными продуктами данных. Вместо этого при приеме данных из источника реализуйте проверки качества данных рядом с источниками и прежде чем подчиненные потребители используют продукты данных. Если из озера данных существует пакетное прием, выполните эти проверки при перемещении данных из необработанных в обогащенные.

    Схема реализации качества данных во время приема.

  • Перед перемещением данных на обогащенный слой его схема и столбцы проверяются на наличие метаданных, зарегистрированных в каталоге данных.

  • Если данные содержат ошибки, загрузка останавливается, а команда приложений данных уведомляет об ошибке.

  • Если проверка схемы и столбцов пройдена успешно, данные загружаются в обогащенные слои с согласованными типами данных.

  • Перед переходом на обогащенный слой процесс качества данных проверяет соответствие алгоритмам и правилам.

Совет

Определите правила качества данных как на глобальном, так и на уровне домена. Это позволяет бизнесу определять свои стандарты для каждого созданного продукта данных и позволяет доменам данных создавать дополнительные правила, связанные с их доменом.

Решения по качеству данных

Мы рекомендуем оценивать Качество данных Microsoft Purview в качестве решения для оценки качества данных и управления ими, что является важным для надежной аналитики на основе искусственного интеллекта и принятия решений. Сюда входят:

  • Правила no-code/low-code: оцените качество данных с помощью встроенных правил, созданных ИИ.
  • Профилирование данных на основе искусственного интеллекта: рекомендует столбцы для профилирования и позволяет человеческому вмешательству для уточнения.
  • Оценка качества данных: предоставляет оценки для ресурсов данных, продуктов данных и доменов управления.
  • Оповещения о качестве данных: уведомляет владельцев данных о проблемах с качеством.

Дополнительные сведения см. в разделе "Что такое качество данных".

Если ваша организация решит реализовать Azure Databricks для управления данными, необходимо оценить средства управления качеством данных, тестированием, мониторингом и применением этого решения. Использование ожиданий может записывать проблемы с качеством данных при приеме, прежде чем они влияют на связанные дочерние продукты данных. Дополнительные сведения см. в разделе "Создание стандартов качества данных" и "Управление качеством данных" с помощью Databricks.

Вы также можете выбрать один из партнеров, open-source и настраиваемых вариантов решения по качеству данных.

Сводка по качеству данных

Исправление качества данных может иметь серьезные последствия для бизнеса. Это может привести к тому, что бизнес-подразделения интерпретируют продукты данных разными способами. Это неправильное понимание может оказаться дорогостоящим для бизнес-решений на основе продуктов данных с более низким качеством данных. Исправление продуктов данных с отсутствующими атрибутами может быть дорогой задачей и может потребовать полной перезагрузки данных из # периодов.

Проверьте качество данных рано и поместите процессы в упреждающее решение проблемы с низким качеством данных. Например, продукт данных не может быть выпущен в рабочую среду, пока он не достигнет определенного количества полноты.

Вы можете использовать инструмент в качестве свободного выбора, но убедитесь, что он включает в себя ожидания (правила), метрики данных, профилирование и возможность защитить ожидания, чтобы реализовать глобальные и доменные ожидания.

Следующие шаги