Escenarios de uso de Power BI: preparación de datos de autoservicio
Nota
Este artículo forma parte de la serie de artículos sobre el planeamiento de la implementación de Power BI. Esta serie se centra principalmente en la experiencia de Power BI en Microsoft Fabric. Para obtener una introducción a la serie, consulte el planeamiento de la implementación de Power BI.
La preparación de datos (a veces denominada "ETL", que es un acrónimo de Extract, Transform y Load) suele implicar una cantidad significativa de trabajo en función de la calidad y la estructura de los datos de origen. El escenario de uso de preparación de datos de autoservicio se centra en la reutilización de las actividades de preparación de datos por parte de los analistas empresariales. Logra este objetivo de reutilización reasignando el trabajo de preparación de datos de Power Query (dentro de archivos de Power BI Desktop concretos) a Power Query Online (mediante un flujo de datos de Power BI). La centralización de la lógica ayuda a lograr una única fuente de la verdad y reduce el nivel de esfuerzo requerido por otros creadores de contenido.
Los flujos de datos se crean mediante Power Query Online en una de varias herramientas: el servicio Power BI, Power Apps o Dynamics 365 Customer Insights. Un flujo de datos creado en Power BI se conoce como "flujo de datos analítico". Los flujos de datos creados en Power Apps pueden ser uno de los dos tipos: estándar o analíticos. Este escenario solo abarca el uso de un flujo de datos de Power BI creado y administrado dentro del servicio Power BI.
Nota
El escenario de preparación de datos de autoservicio es uno de los escenarios de BI de autoservicio. Para obtener una lista completa de los escenarios de autoservicio, consulte el artículo Escenarios de uso de Power BI.
Por motivos de brevedad, algunos aspectos descritos en el tema Escenarios de colaboración y entrega de contenido no se tratan en este artículo. Si quiere obtener una cobertura completa, lea primero esos artículos.
Diagrama del escenario
En el diagrama siguiente se muestra una introducción general de las acciones de usuario más comunes y los componentes de Power BI que admiten la preparación de datos de autoservicio. El objetivo principal es crear un flujo de datos en Power Query Online que se convierte en un origen de datos para varios modelos semánticos. El objetivo es que muchos modelos semánticos aprovechen la preparación de datos que realiza una vez el flujo de datos.
Sugerencia
Le recomendamos que descargue el diagrama de escenariossi desea insertarlo en su presentación, documentación o entrada de blog, o imprimirlo como un póster de pared. Dado que es una imagen de gráficos vectoriales escalables (SVG), puede escalarla o reducirla verticalmente sin pérdida de calidad.
En el diagrama de escenario se muestran las siguientes acciones de usuario, herramientas y características:
Elemento | Descripción |
---|---|
El creador del flujo de datos desarrolla una colección de tablas dentro de un flujo de datos de Power BI. En el caso de un flujo de datos destinado a su reutilización, es habitual (pero no necesario) que el creador pertenezca a un equipo centralizado que admita usuarios en toda la organización (como TI, BI empresarial o el Centro de excelencia). | |
El flujo de datos conecta con los datos de uno o más orígenes de datos. | |
Algunos orígenes de datos pueden requerir una puerta de enlace de datos local o una puerta de enlace de red virtual para la actualización de datos, como las que residen dentro de una red organizativa privada. Estas puertas de enlace se usan para crear el flujo de datos en Power Query Online, que es una versión basada en web de Power Query y actualizar el flujo de datos. | |
Los flujos de datos se desarrollan mediante Power Query Online. La conocida interfaz de Power Query en Power Query Online facilita la transición de Power BI Desktop. | |
El flujo de datos se guarda como un elemento de un área de trabajo dedicada al almacenamiento y la protección de flujos de datos. Se requiere una programación de actualización de flujo de datos para mantener los datos actualizados (no se muestran en el diagrama de escenarios). | |
El flujo de datos se puede reutilizar como origen de datos por otros modelos semánticos que podrían residir en diferentes áreas de trabajo. | |
El creador del modelo semántico desarrolla un nuevo modelo de datos mediante Power BI Desktop. El creador del modelo semántico puede usar todas las funcionalidades de Power Query dentro de Power BI Desktop. Opcionalmente, pueden aplicar otros pasos de consulta para transformar aún más los datos del flujo de datos o combinar la salida del flujo de datos. | |
Cuando esté listo, el creador del modelo semántico publica el archivo Power BI Desktop (.pbix) que contiene el modelo de datos en el servicio Power BI. La actualización del modelo semántico se administra independientemente del flujo de datos (no se muestra en el diagrama del escenario). | |
Otros creadores de modelos semánticos de autoservicio pueden crear nuevos modelos de datos en Power BI Desktop usando el flujo de datos como origen de datos. | |
En el portal de administración, los administradores de Power BI pueden configurar conexiones de Azure para almacenar los datos de los flujos de datos en su cuenta de Azure Data Lake Storage Gen2 (ADLS Gen2). La configuración incluye la asignación de una cuenta de almacenamiento de nivel de inquilino y la habilitación de permisos de almacenamiento de nivel de área de trabajo. | |
Los administradores de Power BI administran la configuración en el portal de administración. | |
De forma predeterminada, los flujos de datos almacenan datos mediante el almacenamiento interno administrado por el servicio Power BI. De forma opcional, la salida de datos del flujo de datos se puede almacenar en la cuenta de ADLS Gen2 de la organización. A veces, este tipo de almacenamiento se denomina traiga su propio lago de datos. Una ventaja de almacenar datos de flujo de datos en el lago de datos es que otras herramientas de BI pueden acceder a ellos y consumirlos. | |
Los datos de flujo de datos de ADLS Gen2 se almacenan en un contenedor específico de Power BI conocido como sistema de archivos. Dentro de este contenedor, existe una carpeta para cada área de trabajo. Se crea una subcarpeta para cada flujo de datos, así como para cada tabla. Power BI genera una instantánea cada vez que se actualizan los datos del flujo de datos. Las instantáneas se describen automáticamente, que constan de metadatos y archivos de datos. | |
Los administradores de Azure administran permisos para la cuenta de ADLS Gen2 de la organización. | |
Los administradores de Power BI controlan y supervisan la actividad en el servicio Power BI. |
Sugerencia
También se recomienda revisar el escenario de uso de preparación avanzada de datos. Se basa en los conceptos introducidos en este escenario.
Puntos clave
Estos son algunos puntos clave que se deben destacar sobre el escenario de preparación de datos de autoservicio.
Flujos de datos
Un flujo de datos consta de una colección de tablas (también conocidas como entidades). Todo el trabajo de creación de un flujo de datos se realiza en Power Query Online. Puede crear flujos de datos en varios productos, como Power Apps, Dynamics 365 Customer Insights y Power BI.
Nota
No se pueden crear flujos de datos en un área de trabajo personal en el servicio Power BI.
Compatibilidad con creadores de modelos semánticos
En el diagrama de escenario se muestra el uso de un flujo de datos de Power BI para proporcionar datos preparados a otros creadores de modelos semánticos de autoservicio.
Nota:
Los modelos semánticos usan el flujo de datos como origen de datos. Un informe no se puede conectar directamente a un flujo de datos.
Estas son algunas ventajas del uso de flujos de datos de Power BI:
- Los creadores de modelos semánticos usan la misma interfaz de Power Query conocida que se encuentra en Power BI Desktop.
- La lógica de preparación y transformación de datos definida por un flujo de datos se puede reutilizar muchas veces porque está centralizada.
- Cuando se realizan cambios en la lógica de preparación de datos en el flujo de datos, es posible que no necesite actualizar los modelos de datos dependientes. Quitar o cambiar el nombre de las columnas o cambiar los tipos de datos de columna requerirá actualizar los modelos de datos dependientes.
- Los datos preparados previamente se pueden poner fácilmente a disposición de los creadores de modelos semánticos de Power BI. La reutilización es especialmente útil para las tablas que se usan habitualmente, especialmente las tablas de dimensiones, como la fecha, el cliente y el producto.
- El nivel de esfuerzo requerido por los creadores de modelos semánticos se reduce porque el trabajo de preparación de datos se ha desacoplado del trabajo de modelado de datos.
- Menos creadores de modelos semánticos necesitan acceso directo a los sistemas de origen. Los sistemas de origen pueden ser complejos de consultar y podrían requerir permisos de acceso especializados.
- El número de actualizaciones ejecutadas en los sistemas de origen se reduce porque las actualizaciones de los modelos semánticos se conectan a los flujos de datos y no a los sistemas de origen desde los que los flujos de datos extraen datos.
- Los datos de flujo de datos representan una instantánea en el tiempo y promueven la coherencia cuando los usan muchos modelos semánticos.
- La desacoplación de la lógica de preparación de datos en flujos de datos puede ayudar a mejorar el éxito de la actualización de modelos semánticos. Si se produce un error en una actualización de flujo de datos, los modelos semánticos se actualizarán con la última actualización correcta del flujo de datos.
Sugerencia
Cree tablas de flujo de datos aplicando principios de diseño de esquema de estrella. Un diseño de esquema de estrella es adecuado para crear modelos semánticos de Power BI. Además, refinar la salida del flujo de datos para aplicar nombres descriptivos y usar tipos de datos específicos. Estas técnicas promueven la coherencia en modelos semánticos dependientes y ayudan a reducir la cantidad de trabajo que los creadores de modelos semánticos necesitan hacer.
Flexibilidad del creador del modelo semántico
Cuando un creador de modelos semánticos se conecta a un flujo de datos en Power BI Desktop, el creador no se limita al uso de la salida exacta del flujo de datos. Todavía tienen la funcionalidad completa de Power Query están disponibles. Esta funcionalidad es útil si se requiere un trabajo adicional de preparación de datos o los datos requieren una transformación adicional.
Características avanzadas de flujo de datos
Hay muchas técnicas de diseño, patrones y procedimientos recomendados para flujos de datos que pueden pasar del autoservicio a estar listos para la empresa. Los flujos de datos de un área de trabajo con el modo de licencia establecido en Premium por usuario, capacidad Premium o capacidad de Fabric pueden beneficiarse de características avanzadas.
Importante
En ocasiones, este artículo hace referencia a Power BI Premium o a sus suscripciones de capacidad (SKU P). Tenga en cuenta que Microsoft está consolidando actualmente las opciones de compra y retirando las SKU de Power BI Premium por capacidad. Los clientes nuevos y existentes deben considerar la posibilidad de comprar suscripciones de capacidad de Fabric (SKU F) en su lugar.
Para obtener más información, consulte Actualización importante sobre las licencias de Power BI Premium y Preguntas más frecuentes sobre Power BI Premium.
Nota:
Una de las características avanzadas es la actualización incremental de los flujos de datos. Aunque la actualización incremental de los modelos semánticos es una característica de Power BI Pro, la actualización incremental de los flujos de datos es una característica Premium.
Para obtener más información sobre las características avanzadas del flujo de datos, consulte el escenario de uso avanzado de la preparación de datos.
Actualización del modelo semántico y del flujo de datos
Como se mencionó anteriormente, un flujo de datos es un origen de datos para modelos semánticos. En la mayoría de los casos, hay varias programaciones de actualización de datos implicadas: una para el flujo de datos y otra para cada modelo semántico. Como alternativa, es posible usar DirectQuery desde el modelo semántico al flujo de datos, que es una característica Premium (no se muestra en el diagrama de escenarios).
Azure Data Lake Storage Gen2
En Microsoft Azure, una cuenta de ADLS Gen2 es un tipo específico de cuenta de Azure Storage que tiene habilitado el espacio de nombres jerárquico. ADLS Gen2 tiene ventajas de rendimiento, administración y seguridad para operar cargas de trabajo analíticas. De forma predeterminada, los flujos de datos de Power BI usan el almacenamiento interno, que es una cuenta integrada de lago de datos administrada por el servicio Power BI. Opcionalmente, las organizaciones pueden traer su propio lago de datos mediante la conexión a la cuenta de ADLS Gen2 de su organización.
Estas son algunas de las ventajas de usar la cuenta de Data Lake de la organización:
- Otros usuarios o procesos pueden acceder a los datos almacenados por un flujo de datos de Power BI (opcionalmente) desde el lago de datos. Esto es útil cuando el flujo de datos se reutiliza fuera de Power BI. Por ejemplo, Azure Data Factory podría acceder a los datos.
- Los datos del lago de datos pueden administrarse (opcionalmente) mediante otras herramientas o sistemas. En este caso, Power BI puede consumir los datos en lugar de administrarlos (lo cual no se representa en el diagrama de escenarios).
Almacenamiento de nivel de inquilino
La sección Conexiones de Azure del portal de Administración incluye una configuración para configurar una conexión a una cuenta de ADLS Gen2. La configuración de esta opción permite traer su propio lago de datos. Una vez configurado, puede establecer áreas de trabajo para usar esa cuenta de lago de datos.
Importante
Establecer conexiones de Azure no significa que todos los flujos de datos del inquilino de Power BI se almacenen en esta cuenta de forma predeterminada. Para usar una cuenta de almacenamiento explícita (en lugar de almacenamiento interno), cada área de trabajo debe estar conectada específicamente.
Es fundamental establecer las conexiones de Azure del área de trabajo antes de crear flujos de datos en el área de trabajo. La misma cuenta de almacenamiento de Azure se usa para las copias de seguridad del modelo semántico de Power BI.
Almacenamiento de nivel de área de trabajo
Un administrador de Power BI puede configurar una opción para permitir permisos de almacenamiento de nivel de área de trabajo (en la sección Conexiones de Azure del portal de Administración). Cuando se habilita, esta opción permite a los administradores del área de trabajo usar una cuenta de almacenamiento diferente a la definida en el nivel de inquilino. Habilitar esta configuración es especialmente útil para las unidades de negocio descentralizadas que administran su propio lago de datos en Azure.
Nota
El permiso de almacenamiento de nivel de área de trabajo del portal de Administración se aplica a todas las áreas de trabajo del inquilino de Power BI.
Formato Common Data Model
Los datos de una cuenta de ADLS Gen2 se almacenan en la estructura Common Data Model (CDM). La estructura de CDM es un formato de metadatos que determina cómo se almacena el esquema autodescripto, así como los datos. La estructura de CDM permite la coherencia semántica en un formato estandarizado para compartir datos en numerosas aplicaciones (no se muestra en el diagrama de escenarios).
Publicación en áreas de trabajo independientes
Hay varias ventajas para publicar un flujo de datos en un área de trabajo independiente de donde se almacenan los modelos semánticos dependientes. Una ventaja es la claridad sobre quién es responsable de administrar qué tipos de contenido (si tiene diferentes personas que controlan diferentes responsabilidades). Otra ventaja es que se pueden asignar permisos de área de trabajo específicos para cada tipo de contenido.
Nota
No se pueden crear flujos de datos en un área de trabajo personal en el servicio Power BI.
En el escenario de uso avanzado de preparación de datos se describe cómo configurar varias áreas de trabajo para proporcionar una mejor flexibilidad al admitir creadores de autoservicio de nivel empresarial.
Instalación de la puerta de enlace
Normalmente, se requiere una puerta de enlace de datos local para conectarse a los orígenes de datos que residan en una red de organización privada o una red virtual.
Se requiere una puerta de enlace de datos en los casos siguientes:
- Para crear un flujo de datos en Power Query Online que se conecte a los datos privados de una organización.
- Para actualizar un flujo de datos que se conecte a los datos privados de una organización.
Sugerencia
Los flujos de datos requieren una puerta de enlace de datos centralizada en modo estándar. Al trabajar con flujos de datos, no se admite una puerta de enlace en modo personal.
Supervisión del sistema
El registro de actividad registra las actividades del usuario que se producen en el servicio Power BI. Los administradores de Power BI pueden usar los datos del registro de actividad recopilados para realizar auditorías que les ayuden a comprender los patrones de uso y adopción. El registro de actividad también es valioso para proporcionar asistencia a los esfuerzos de gobernanza, las auditorías de seguridad y los requisitos de cumplimiento. Con un escenario de preparación de datos de autoservicio, resulta especialmente útil realizar un seguimiento del uso de flujos de datos.
Contenido relacionado
En el siguiente artículo de la serie, obtenga información sobre el escenario de uso avanzado de preparación de datos.