Просмотр и проверка оценки качества данных в пространстве данных
После создания правил качества данных и выполнения проверки качества данных ресурсы данных получат оценку качества данных на основе результатов ваших правил. В этой статье описывается, как вычисляются оценки, чтобы получить более глубокое представление о результатах качества данных, а также разработать элементы действий для повышения целостности данных.
Общие сведения о оценках качества данных
Цель правил качества данных — предоставить описание состояния данных. В частности, он показывает, насколько далеко данные от идеального состояния, описанного правилами. Каждое правило при выполнении создает оценку, которая описывает, насколько близко данные к нужному состоянию. Большинство правил очень прямолинейно; они делят общее количество строк, прошедших оценку, на общее количество строк для получения оценки.
Формула, используемая для вычисления оценки качества данных для правила с данными в столбце:
[(total number of passed records)/(passed records + failed records + miscast records + empty records + ignored records)]
- Numerator = количество переданных записей
- Знаменатель = общее количество записей (число переданных записей + количество неудачных записей + количество записей неправильной рассылки + число пустых + количество пропущенных записей)
- Передано — количество записей, которые передали примененное правило.
- Неоценимые — столбцы, необходимые для оценки этого правила, не являются бесценными
- Сбой — количество записей, в которых не удалось применить правило.
- Неправильное перечисление — тип данных ресурса и тип, который клиент перечислил его как не совпадающие. Его нельзя преобразовать в выраженный тип.
- Пустой — пустые или пустые записи
- Игнорируется — строки не участвовали в оценке правила. Клиенты могут выражать строки, которые следует игнорировать. Например, игнорировать все строки с адресом электронной почты = "n/a" или игнорировать все строки, где departmentCode = "test" или "internal"
Качество данных Microsoft Purview затем дает представление о состоянии каждого столбца путем создания оценки столбца. Эта оценка представляет собой среднее значение всех оценок правил в этом столбце.
После вычисления оценок столбцов для расчета средней процентной оценки качества данных для продуктов данных и доменов управления используется следующая формула:
[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100
(Оценка умножается на 100, чтобы сделать оценки более удобочитаемыми.)
Пример вычисления
Предположим, что в столбце нет правила "Пустые и пустые поля". Это означает, что для этого столбца допустимы значения NULL. Поэтому некоторые правила, например правило уникальных значений, в этом случае отфильтруют значения NULL.
Например, если ресурс содержит 10 000 строк в таблице, но 3000 имеют значение NULL, а 500 не уникальны, то оценка будет следующей: ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93
Пустые строки игнорируются при оценке данных и определении оценки.
Оценки конкретных правил
Для пользовательских правил существует аналогичная возможность, аналогичная для правила уникальных значений, но в этом случае фильтр используется не по значениям NULL, а скорее к выражению фильтра.
Некоторые правила, такие как правило актуальности, либо проходят, либо завершаются ошибкой. Таким образом, их оценки будут либо 0, либо 100. Правило актуальности применяется на уровне ресурса данных, а не на уровне столбцов.
Сведения о правилах и журнал
Вы можете просмотреть сведения и журнал оценок правил, выбрав правило. Выбрав определенное имя правила и перейдя на вкладку журнал правил, вы увидите тенденцию различных запусков сканирования для конкретного правила.
Сведения о правиле содержат сведения о количестве переданных, неудачных и пропущенных строк для различных запусков для конкретного правила. В правилах, которые находятся в состоянии черновика (состояние OFF), оценка не будет влиять на глобальную оценку. Правила в состоянии черновика не будут выполняться вообще во время проверки качества и поэтому не будут иметь оценки.
Столбцы и правила имеют отношение "много ко многим", одно и то же правило может применяться ко многим столбцам, а многие правила могут применяться к одному и тому же столбцу. Вы можете просмотреть шаблон тренда для каждого правила, просмотрев строку Тренд в области Схема .
Тенденции оценки качества данных на уровне активов доступны для последних 50 запусков. Эта тенденция оценки качества помогает специалистам по качеству данных отслеживать тенденцию и колебания качества данных из месяца в месяц. Качество данных также может активировать оповещения для каждой проверки качества данных, если оценка качества не соответствует пороговой или бизнес-ожиданиям.
Глобальная оценка — это среднее значение для всех производственных правил, определенных для ресурса. Глобальная оценка на уровне активов также свертывается до уровня продукта данных и уровня домена управления. Глобальная оценка должна быть официальным определением состояния ресурса данных, продукта данных и области управления в контексте качества данных.
Для измерений качества данных создается сводный отчет. Этот отчет содержит оценку качества данных для каждого измерения качества данных. Глобальная оценка для домена управления также опубликована в этом отчете. Вы можете просмотреть оценку качества для каждого домена управления, продукта данных и ресурса данных из этого отчета Power BI.
Примечание.
Измерения качества данных — это признанные термины, используемые специалистами по обработке данных для описания признаков данных, которые могут быть измерены или оценены в соответствии с определенными стандартами для количественной оценки уровня качества данных, которые мы используем для ведения бизнеса.