Guía de decisiones de Microsoft Fabric: selección de un almacén de datos

Use esta guía de referencia y los escenarios de ejemplo para ayudarle a elegir entre el almacén de datos para las cargas de trabajo de Microsoft Fabric.

Propiedades del almacén de datos

En esta tabla se comparan almacenes de datos como Warehouse, Lakehouse, DataMart de Power BI y Eventhouse en función del volumen de datos, tipo, rol de desarrollador, conjunto de aptitudes, operaciones. y otras capacidades.

Almacén Lakehouse DataMart de Power BI Eventhouse
Volumen de datos Sin límite Sin límite Hasta 100 GB Sin límite
Tipo de datos Estructurados No estructurados, semiestructurados, estructurados Estructurados No estructurados, semiestructurados, estructurados
Rol de desarrollador principal Desarrollador de almacenamiento de datos, ingeniero de SQL Ingeniero de datos, científico de datos Desarrollador civil Científico de datos civil, ingeniero de datos, científico de datos, ingeniero de SQL
Conjunto de aptitudes de desarrollador principal SQL Spark(Scala, PySpark, Spark SQL, R) Sin código, SQL Sin código, KQL, SQL
Datos organizados por Bases de datos, esquemas y tablas Carpetas y archivos, bases de datos y tablas Base de datos, tablas, consultas Bases de datos, esquemas y tablas
Lee operaciones. T-SQL, Spark (admite la lectura de tablas mediante accesos directos, aún no admite el acceso a vistas, procedimientos almacenados, funciones, etc.) Spark, T-SQL Spark, T-SQL, Power BI KQL, T-SQL, Spark, Power BI
Operaciones de escritura T-SQL Spark(Scala, PySpark, Spark SQL, R) Flujos de datos, T-SQL KQL, Spark, ecosistema de conectores
Transacciones de varias tablas No No Sí, para la ingesta de varias tablas. Consulte la directiva de actualización.
Interfaz de desarrollo principal Scripts de SQL Cuadernos de Spark, definiciones de trabajos de Spark Power BI Conjunto de consultas KQL, base de datos KQL
Seguridad Nivel de objeto (tabla, vista, función, procedimiento almacenado, etc.), nivel de columna, nivel de fila, DDL/DML, enmascaramiento de datos dinámico Nivel de fila, nivel de columna (para el lakehouse al que se accede a través de un punto de conexión de análisis SQL), nivel de tabla (cuando se usa T-SQL), ninguno para Spark Editor RLS integrado Seguridad de filas
Acceso a datos a través de accesos directos Sí, a través de un almacén de lago con nombres de tres partes No
Puede ser un origen para los accesos directos Sí (tablas) Sí (archivos y tablas) No
Consulta entre elementos Sí, consultar tablas de almacén de lago y almacenamiento Sí, consultar tablas de almacén de lago y almacenamiento; consultar entre los almacenes de lago (incluidos los accesos directos mediante Spark) No Sí, consultar las bases de datos de KQL, los almacenes de lago y el almacenamiento con accesos directos

Escenarios

Revise estos escenarios para obtener ayuda con la elección de un almacén datos en Fabric.

Escenario 1

Susan, desarrolladora profesional, es nueva en Microsoft Fabric. Están listos para empezar a limpiar, modelar y analizar datos, pero deben decidir si crear un almacenamiento de datos o un almacén de lago. Después de revisar los detalles de la tabla anterior, los puntos de decisión principales son el conjunto de aptitudes disponible y la necesidad de transacciones de varias tablas.

Susan ha dedicado muchos años a crear almacenes de datos en motores de base de datos relacionales y está familiarizado con la funcionalidad y sintaxis de SQL. Pensando en el equipo más grande, los principales consumidores de estos datos también están cualificados con SQL y las herramientas analíticas de SQL. Susan decide usar un almacenamiento de datos, que permite al equipo interactuar principalmente con T-SQL, a la vez que permite a los usuarios de Spark de la organización acceder a los datos.

Susan crea una nueva instancia del lakehouse y accede a las capacidades del almacenamiento de datos con el punto de conexión de análisis SQL del lakehouse. Mediante el portal de Fabric, crea accesos directos a las tablas de datos externos y los coloca en la carpeta /Tables. Susan ya puede escribir consultas de T-SQL que hagan referencia a los accesos directos para consultar los datos de Delta Lake en el almacén de lago. Los accesos directos aparecen automáticamente como tablas en el punto de conexión de análisis SQL y se pueden consultar con T-SQL mediante nombres de tres partes.

Escenario 2

Rob, ingeniero de datos, necesita almacenar y modelar varios terabytes de datos en Fabric. El equipo tiene una combinación de aptitudes de PySpark y T-SQL. La mayoría de los equipos que ejecutan consultas de T-SQL son consumidores y, por lo tanto, no es necesario escribir instrucciones INSERT, UPDATE o DELETE. Los desarrolladores restantes están cómodos trabajando en cuadernos y, dado que los datos se almacenan en Delta, pueden interactuar con una sintaxis SQL similar.

Rob decide usar un almacén de lago, el cual permite al equipo de ingeniería de datos usar sus diversas aptitudes con respecto a los datos, al tiempo que permite a los miembros del equipo altamente cualificados en T-SQL consumir los datos.

Escenario 3

Ash, desarrollador civil, es un desarrollador de Power BI. Están familiarizados con Excel, Power BI y Office. Necesitan crear un producto de datos para una unidad de negocio. Saben que no tienen las aptitudes para crear un almacenamiento de datos o un almacén de lago, y parecen demasiado para sus necesidades y volúmenes de datos. Revisan los detalles de la tabla anterior y ven que los puntos de decisión principales son sus propias aptitudes y su necesidad de autoservicio, sin capacidad de programar y volumen de datos inferior a 100 GB.

Ash trabaja con analistas de negocios familiarizados con Power BI y Microsoft Office, y sabe que ya tienen una suscripción de capacidad Premium. A medida que piensan en que su equipo sea más grande, se dan cuenta de que los consumidores principales de estos datos podrían ser analistas, familiarizados con herramientas analíticas de SQL y que no programan. Ash decide usar un datamart de Power BI, que permite al equipo interactuar rápidamente con la compilación de la capacidad a través de una experiencia sin código. Las consultas se pueden ejecutar a través de Power BI y T-SQL, al mismo tiempo que permiten a los usuarios de Spark de la organización acceder también a los datos.

Escenario 4

Daisy es una analista de negocios con experiencia en el uso de Power BI para analizar los cuellos de botella de la cadena de suministro para una gran cadena minorista global. Necesitan crear una solución de datos escalable que pueda controlar miles de millones de filas de datos y se puedan usar para crear paneles e informes y tomar decisiones empresariales. Los datos proceden de plantas, proveedores, transportistas y otras fuentes en diversos formatos estructurados, semiestructurados y no estructurados.

Daisy decide usar un almacén de eventos debido a su escalabilidad, tiempo de respuesta rápido, funcionalidades de análisis avanzadas, como análisis de series temporales, funciones geoespaciales y el modo de consulta directa rápida en Power BI. Las consultas se pueden ejecutar mediante Power BI y KQL para comparar entre los períodos actuales y anteriores, identificar rápidamente problemas emergentes o proporcionar análisis geoespaciales de rutas terrestres y marítimas.