Просмотр и проверка оценки качества данных в пространстве данных

После создания правил качества данных и выполнения проверки качества данных ресурсы данных получат оценку качества данных на основе результатов ваших правил. В этой статье описывается, как вычисляются оценки, чтобы получить более глубокое представление о результатах качества данных, а также разработать элементы действий для повышения целостности данных.

Общие сведения о оценках качества данных

Цель правил качества данных — предоставить описание состояния данных. В частности, он показывает, насколько далеко данные от идеального состояния, описанного правилами. Каждое правило при выполнении создает оценку, которая описывает, насколько близко данные к нужному состоянию. Большинство правил очень прямолинейно; они делят общее количество строк, прошедших оценку, на общее количество строк для получения оценки.

Формула, используемая для вычисления оценки качества данных для правила с данными в столбце:

[(total number of passed records)/(passed records + failed records + miscast records + empty records + ignored records)]

  • Numerator = количество переданных записей
  • Знаменатель = общее количество записей (число переданных записей + количество неудачных записей + количество записей неправильной рассылки + число пустых + количество пропущенных записей)
    • Передано — количество записей, которые передали примененное правило.
    • Неоценимые — столбцы, необходимые для оценки этого правила, не являются бесценными
    • Сбой — количество записей, в которых не удалось применить правило.
    • Неправильное перечисление — тип данных ресурса и тип, который клиент перечислил его как не совпадающие. Его нельзя преобразовать в выраженный тип.
    • Пустой — пустые или пустые записи
    • Игнорируется — строки не участвовали в оценке правила. Клиенты могут выражать строки, которые следует игнорировать. Например, игнорировать все строки с адресом электронной почты = "n/a" или игнорировать все строки, где departmentCode = "test" или "internal"

Качество данных Microsoft Purview затем дает представление о состоянии каждого столбца путем создания оценки столбца. Эта оценка представляет собой среднее значение всех оценок правил в этом столбце.

Снимок экрана: оценка качества данных на уровне столбца.

После вычисления оценок столбцов для расчета средней процентной оценки качества данных для продуктов данных и доменов управления используется следующая формула:

[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100

(Оценка умножается на 100, чтобы сделать оценки более удобочитаемыми.)

Пример вычисления

Предположим, что в столбце нет правила "Пустые и пустые поля". Это означает, что для этого столбца допустимы значения NULL. Поэтому некоторые правила, например правило уникальных значений, в этом случае отфильтруют значения NULL.

Например, если ресурс содержит 10 000 строк в таблице, но 3000 имеют значение NULL, а 500 не уникальны, то оценка будет следующей: ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93

Пустые строки игнорируются при оценке данных и определении оценки.

Оценки конкретных правил

Для пользовательских правил существует аналогичная возможность, аналогичная для правила уникальных значений, но в этом случае фильтр используется не по значениям NULL, а скорее к выражению фильтра.

Некоторые правила, такие как правило актуальности, либо проходят, либо завершаются ошибкой. Таким образом, их оценки будут либо 0, либо 100. Правило актуальности применяется на уровне ресурса данных, а не на уровне столбцов.

Сведения о правилах и журнал

Вы можете просмотреть сведения и журнал оценок правил, выбрав правило. Выбрав определенное имя правила и перейдя на вкладку журнал правил, вы увидите тенденцию различных запусков сканирования для конкретного правила.

  • Сведения о правиле содержат сведения о количестве переданных, неудачных и пропущенных строк для различных запусков для конкретного правила. В правилах, которые находятся в состоянии черновика (состояние OFF), оценка не будет влиять на глобальную оценку. Правила в состоянии черновика не будут выполняться вообще во время проверки качества и поэтому не будут иметь оценки.

    Снимок экрана: оценка качества данных на уровне правила.

  • Столбцы и правила имеют отношение "много ко многим", одно и то же правило может применяться ко многим столбцам, а многие правила могут применяться к одному и тому же столбцу. Вы можете просмотреть шаблон тренда для каждого правила, просмотрев строку Тренд в области Схема .

    Снимок экрана: линия тренда для правила

  • Тенденции оценки качества данных на уровне активов доступны для последних 50 запусков. Эта тенденция оценки качества помогает специалистам по качеству данных отслеживать тенденцию и колебания качества данных из месяца в месяц. Качество данных также может активировать оповещения для каждой проверки качества данных, если оценка качества не соответствует пороговой или бизнес-ожиданиям.

    Снимок экрана: тренд оценки качества данных для сущности данных.

  • Глобальная оценка — это среднее значение для всех производственных правил, определенных для ресурса. Глобальная оценка на уровне активов также свертывается до уровня продукта данных и уровня домена управления. Глобальная оценка должна быть официальным определением состояния ресурса данных, продукта данных и области управления в контексте качества данных.

    Снимок экрана: глобальные оценки качества данных для доменов управления.

  • Для измерений качества данных создается сводный отчет. Этот отчет содержит оценку качества данных для каждого измерения качества данных. Глобальная оценка для домена управления также опубликована в этом отчете. Вы можете просмотреть оценку качества для каждого домена управления, продукта данных и ресурса данных из этого отчета Power BI.

    Отчеты о измерениях качества данных

Примечание.

Измерения качества данных — это признанные термины, используемые специалистами по обработке данных для описания признаков данных, которые могут быть измерены или оценены в соответствии с определенными стандартами для количественной оценки уровня качества данных, которые мы используем для ведения бизнеса.

Дальнейшие действия