Рекомендации по повторному использованию потоков данных в средах и рабочих областях

В этой статье рассматривается коллекция рекомендаций по повторному использованию потоков данных эффективно и эффективно. Ознакомьтесь с этой статьей, чтобы избежать ошибок проектирования и потенциальных проблем с производительностью при разработке потоков данных для повторного использования.

Разделение потоков данных преобразования данных из промежуточных и извлечения потоков данных

Если поток данных выполняет все действия, трудно повторно использовать свои таблицы в других потоках данных или в других целях. Лучшие потоки данных для повторного использования — это те потоки данных, которые выполняют только несколько действий. Создание потоков данных, которые специализируются на одной конкретной задаче, является одним из лучших способов их повторного использования. Если у вас есть набор потоков данных, используемых в качестве промежуточных потоков данных, их единственным действием является извлечение данных из исходной системы. Эти потоки данных можно повторно использовать в нескольких других потоках данных.

Если у вас есть потоки данных преобразования данных, их можно разделить на потоки данных, которые выполняют общие преобразования. Каждый поток данных может выполнять всего несколько действий. Эти несколько действий для каждого потока данных обеспечивают повторное использование выходных данных другими потоками данных.

Dataflow doing only a few actions.

Изображение с данными, извлеченными из источника данных в промежуточные потоки данных, где таблицы хранятся в Dataverse или в хранилище Azure Data Lake. Затем данные перемещаются в потоки данных преобразования, в которых данные преобразуются и преобразуются в структуру хранилища данных. Наконец, данные загружаются в семантику Power BI.

Использование нескольких рабочих областей

Каждая рабочая область (или среда) доступна только для членов этой рабочей области. Если вы создаете все потоки данных в одной рабочей области, вы минимизируете повторное использование потоков данных. Вы можете использовать некоторые универсальные рабочие области для потоков данных, обрабатывающих таблицы всей компании. Вы также можете использовать определенную рабочую область для потоков данных для обработки таблиц в нескольких отделах. Кроме того, можно использовать некоторые рабочие области для потоков данных только в определенных отделах.

Image showing the separate workspaces.

Настройка правильных уровней доступа в рабочих областях

Чтобы предоставить доступ к потокам данных в других рабочих областях, чтобы использовать выходные данные потока данных в рабочей области, просто необходимо предоставить им доступ к просмотру в рабочей области. Дополнительные сведения о других ролях в рабочей области Power BI см. в разделе "Роли" в новых рабочих областях.

Screenshot showing how to access to the Power BI workspace.

Подтверждение потока данных в Power BI

Существует множество потоков данных, созданных в организации клиента, и пользователям может быть трудно знать, какой поток данных является наиболее надежным. Авторы потока данных или те пользователи, у которых есть доступ к нему редактирования, могут поддержать поток данных на трех уровнях: без подтверждения, повышения или сертификации.

Эти уровни подтверждения помогают пользователям найти надежные потоки данных проще и быстрее. Сначала появится поток данных с более высоким уровнем одобрения. Администратор Power BI может делегировать возможность поддерживать потоки данных на сертифицированный уровень другим пользователям. Дополнительные сведения: подтверждение — продвижение и сертификация содержимого Power BI

Screenshot of the Power Query Navigator showing the promoted and certified endorsement labels on specific dataflows.

Отдельные таблицы в нескольких потоках данных

В одном потоке данных можно использовать несколько таблиц. Одной из причин, по которым можно разделить таблицы в нескольких потоках данных, является то, что вы узнали ранее в этой статье о разделении потоков данных приема и преобразования данных. Другая хорошая причина в наличии таблиц в нескольких потоках данных заключается в том, что требуется другое расписание обновления, отличное от других таблиц.

В примере, показанном на следующем рисунке, таблица продаж должна обновляться каждые четыре часа. Для обновления текущей записи даты необходимо обновить таблицу дат только один раз в день. И таблица сопоставления продуктов должна обновляться раз в неделю. Если у вас есть все эти таблицы в одном потоке данных, для них есть только один параметр обновления. Однако если разделить эти таблицы на несколько потоков данных, можно запланировать обновление каждого потока данных отдельно.

Image showing dataflows with different schedules for the refresh.

Хорошие кандидаты таблиц для таблиц потока данных

При разработке решений с помощью Power Query в классических средствах вы можете попросить себя; какие из этих таблиц являются хорошими кандидатами для перемещения в поток данных? Лучшие таблицы, которые необходимо переместить в поток данных, — это таблицы, которые необходимо использовать в нескольких решениях или нескольких средах или службах. Например, таблица date, показанная на следующем рисунке, должна использоваться в двух отдельных файлах Power BI. Вместо дедупликации этой таблицы в каждом файле можно создать таблицу в потоке данных в виде таблицы и повторно использовать ее в этих файлах Power BI.

Image showing a shared table used in a dataflow.