Procedimientos recomendados para reutilizar flujos de datos entre entornos y áreas de trabajo
En este artículo se describe una colección de procedimientos recomendados para reutilizar flujos de datos de manera eficaz y eficiente. Lea este artículo para evitar problemas de diseño y posibles problemas de rendimiento cuando desarrolle flujos de datos para su reutilización.
Separar flujos de datos de transformación de datos de flujos de datos de almacenamiento provisional o extracción
Si un flujo de datos realiza todas las acciones, es difícil reutilizar sus tablas en otros flujos de datos o para otros fines. Los mejores flujos de datos para reutilizar son aquellos que realizan solo algunas acciones. Crear flujos de datos especializados en una tarea específica es una de las mejores maneras de poder reutilizarlos. Si tiene un conjunto de flujos de datos que se usa como flujos de datos de almacenamiento provisional, su única acción es extraer datos tal como están del sistema de origen. Estos flujos de datos se pueden reutilizar en varios otros flujos de datos.
Si tiene flujos de datos de transformación de datos, puede dividirlos en flujos de datos que realicen transformaciones comunes. Cada flujo de datos puede realizar solo unas pocas acciones. Estas pocas acciones por flujo de datos garantizan que la salida de ese flujo de datos pueda reutilizarse en otros flujos de datos.
Imagen con datos que se extraen de un origen de datos a flujos de datos de almacenamiento provisional, donde las tablas se almacenan en Dataverse o Azure Data Lake Storage. A continuación, los datos se mueven a flujos de datos de transformación donde se transforman y convierten en la estructura del almacenamiento de datos. Por último, los datos se cargan en un modelo semántico de Power BI.
Uso de varias áreas de trabajo
Cada área de trabajo (o entorno) solo está disponible para los miembros de esa área de trabajo. Si compila todos los flujos de datos en un área de trabajo, estará minimizando la reutilización de los flujos de datos. Puede tener algunas áreas de trabajo genéricas para los flujos de datos que procesan tablas de toda la empresa. También puede tener un área de trabajo para que los flujos de datos procesen tablas en varios departamentos. Además, también puede tener algunas áreas de trabajo para que los flujos de datos solo se usen en departamentos específicos.
Establecer los niveles de acceso correctos en las áreas de trabajo
Para conceder acceso a los flujos de datos de otras áreas de trabajo y usar la salida de un flujo de datos en un área de trabajo, solo tiene que concederles acceso de Visualización en el área de trabajo. Para obtener más información sobre otros roles de un área de trabajo de Power BI, vaya a Roles en las nuevas áreas de trabajo.
Aprobación del flujo de datos en Power BI
Puede haber muchos flujos de datos creados en una organización de inquilino y puede resultar difícil que los usuarios sepan qué flujo de datos es más fiable. Los autores de un flujo de datos, o aquellos usuarios que tienen acceso de edición a él, pueden aprobar el flujo de datos en tres niveles: sin aprobación, promocionado o certificado.
Estos niveles de aprobación ayudan a los usuarios a encontrar flujos de datos fiables de forma más fácil y rápida. El flujo de datos con un nivel de aprobación superior aparece primero. El administrador de Power BI puede delegar la capacidad de aprobar flujos de datos al nivel certificado a otras personas. Más información: Aprobación: promoción y certificación de contenido de Power BI
Separar tablas en varios flujos de datos
Puede tener varias tablas en un flujo de datos. Una de las razones por las que podría dividir tablas en varios flujos de datos es lo que ha aprendido anteriormente en este artículo sobre cómo separar los flujos de datos de ingesta de datos y transformación de datos. Otra buena razón para tener tablas en varios flujos de datos es cuando se desea una programación de actualización diferente a otras tablas.
En el ejemplo que se muestra en la siguiente imagen, la tabla de ventas debe actualizarse cada cuatro horas. La tabla de fechas solo debe actualizarse una vez al día para mantener actualizado el registro de fecha actual. Y una tabla de asignación de productos solo debe actualizarse una vez a la semana. Si tiene todas estas tablas en un flujo de datos, solo tiene una opción de actualización para todas ellas. Sin embargo, si divide estas tablas en varios flujos de datos, puede programar la actualización de cada flujo de datos por separado.
Tablas que son buenas candidatas para tablas de flujo de datos
Al desarrollar soluciones con Power Query en las herramientas de escritorio, puede preguntarse a sí mismo: ¿cuáles de estas tablas son buenas candidatas para trasladarlas a un flujo de datos? Las mejores tablas para mover al flujo de datos son aquellas que deben usarse en más de una solución, o en más de un entorno o servicio. Por ejemplo, la tabla Date que se muestra en la imagen siguiente debe usarse en dos archivos de Power BI independientes. En lugar de duplicar esa tabla en cada archivo, puede compilar la tabla en un flujo de datos como una tabla y reutilizarla en esos archivos de Power BI.