¿Qué es una malla de datos?

La malla de datos es un patrón arquitectónico para implementar plataformas de datos empresariales en organizaciones grandes y complejas. La malla de datos ayuda a escalar la adopción del análisis, más allá de una sola plataforma y un único equipo de implementación.

Información previa

La necesidad de análisis no es nueva. Las organizaciones siempre han necesitado analizar el rendimiento empresarial, y lo han hecho con ordenadores desde que aparecieron. En torno a la década de 1980, las organizaciones empezaron a crear soluciones de almacenamiento de datos, usando bases de datos de forma específica, como ayuda para la toma de decisiones. Estas soluciones de almacenamiento de datos sirvieron bien a las organizaciones, durante mucho tiempo.

Sin embargo, a medida que el negocio va cambiando y con la generación de datos cada vez más diversos, es posible que las soluciones de almacenamiento de datos que usan bases de datos relacionales no siempre sean la mejor solución. En los años 2000, los macrodatos se convirtieron en un término habitual. Las empresas adoptaron rápidamente nuevas soluciones, que permiten el análisis de grandes volúmenes de datos diversos, que se podían generar con gran velocidad. Esto incluye tecnologías como los lagos de datos y las soluciones de escalado horizontal, que analizan grandes cantidades de datos.

En los últimos años, muchas organizaciones obtienen buenos resultados con el uso de patrones analíticos y arquitectónicos modernos, que combinan tecnologías de almacenamiento de datos con tecnologías de macrodatos más recientes.

Sin embargo, algunas organizaciones tienen problemas al implementar soluciones analíticas que utilizan patrones analíticos. Estas soluciones aún se suelen implementar como soluciones monolíticas, donde un único equipo es, a la vez, proveedor de la plataforma y encargado de realizar la integración de datos. Las organizaciones pequeñas, o con un alto grado de centralización desde la perspectiva de configuración del equipo pueden usar un equipo único. Sin embargo, cuando una organización grande usa un solo equipo, a menudo crea un cuello de botella. Este cuello de botella provoca un enorme trabajo pendiente, que hace que las partes de la organización tengan que esperar a los servicios de integración de datos y a las soluciones analíticas.

Este patrón se vuelve más habitual a medida que las organizaciones adoptan soluciones modernas de ciencia de datos. Muchas soluciones de ciencia de datos modernas requieren más datos de los que necesitaban las soluciones tradicionales de inteligencia empresarial.

El cambio reciente al uso de microservicios, como patrón de desarrollo de aplicaciones, es otro factor que lleva a trabajos pendientes largos en torno a la integración de datos, porque aumenta el número de orígenes de datos.

Tener un único equipo que controle toda la ingesta de datos de una organización grande en una sola plataforma también puede ser problemático. Un solo equipo rara vez tiene expertos para cada origen de datos. La mayoría de las organizaciones están descentralizadas y distribuidas desde una perspectiva empresarial. Diferentes unidades y departamentos de la empresa controlan diferentes partes de la operación de negocio, por lo que los expertos en datos suelen distribuirse entre varios sectores.

Para resolver estos problemas se introdujo un patrón denominado malla de datos. El objetivo de la malla de datos es permitir que los equipos distribuidos trabajen con información y la compartan de forma descentralizada y ágil.

La malla de datos es un patrón técnico que también requiere cambios organizativos. Las ventajas de un enfoque de malla de datos se logran mediante la implementación de equipos multidisciplinares, que publican y consumen productos de datos.

Los conceptos siguientes son fundamentales para comprender la arquitectura de malla de datos:

  • Dominios de datos
  • Productos de datos
  • Plataformas de autoservicio
  • Gobernanza federada

Dominios de datos

Los dominios de datos son la base de la malla de datos. El concepto de dominios de datos proviene del desarrollo controlado por dominios (DDD), un paradigma que se suele usar en el desarrollo de software para modelar soluciones de software complejas. En la malla de datos, un dominio de datos es una manera de definir límites en torno a los datos empresariales. Los dominios pueden variar en función de la organización y, en algunos casos, usted puede definir dominios en torno a la organización. En otros casos, puede optar por modelar dominios de datos en función de los procesos empresariales o los sistemas de origen.

Hay tres aspectos para los dominios de datos:

  • Los límites elegidos se enmarcan en una propiedad a largo plazo. Existen durante un largo período de tiempo y tienen propietarios identificables.

  • Los dominios deben ir acordes a la realidad, no solo a los conceptos teóricos.

  • Los dominios deben tener integridad atómica. Si las áreas no tienen ninguna relación entre sí, no las combine juntas en un dominio.

Para más información sobre los dominios de datos y cómo debe definirlos, consulte Dominios de datos.

Productos de datos

Los productos de datos son otro componente importante de la malla de datos. Los productos de datos tienen como objetivo llevar la filosofía de pensar en el producto al mundo de los datos. Para que el producto de datos lleve a resultados exitosos, debe proporcionar un valor empresarial a largo plazo a los usuarios previstos. En la malla de datos, un producto de datos implica datos, recursos de código, metadatos y directivas relacionadas. Los productos de datos se pueden entregar como una API, un informe, una tabla o un conjunto de datos en un lago de datos.

Un producto de datos correcto debe ser:

  • Utilizable: el producto debe tener usuarios fuera del dominio de datos inmediato.
  • Valioso: el producto debe mantener su valor a lo largo del tiempo. Si no tiene valor a largo plazo, no se realizará correctamente.
  • Factible: el producto debe ser factible. Si no puede llegar a compilarlo, el producto no será un éxito. El producto debe ser factible desde un punto de vista técnico y de disponibilidad de los datos.

Los recursos de código de un producto de datos incluyen el código que lo genera y el código que lo entrega. Los recursos de código también incluyen canalizaciones usadas para crear el producto y el informe final del producto.

Para obtener más información sobre productos de datos, consulte Productos de datos analíticos a escala de la nube en Azure.

Para instrucciones específicas sobre el uso de la malla de datos, consulte ¿Qué es un producto de datos?.

Plataformas de autoservicio

Algo clave para la malla de datos es tener una plataforma que permita que los dominios de datos compilen por sí mismos sus productos de datos. Los dominios de datos deben definir productos de datos mediante las herramientas y procesos que son relevantes para los usuarios, sin tener una fuerte dependencia de una plataforma central o de un equipo de plataforma central. En una malla de datos, tiene equipos autónomos que desarrollan y administran productos autónomos.

Al usar la descentralización y la alineación con los usuarios empresariales que comprenden los datos, tenga en cuenta también a los generalistas que trabajan en la plataforma. Puesto que dispone de generalistas, la plataforma basada en mallas no puede tener como piedra angular herramientas especializadas, que requieren conocimientos especializados, para ejecutar las operaciones.

Puede implementar correctamente la plataforma de autoservicio mediante la adopción de los procedimientos descritos en Consideraciones de diseño para plataformas de datos de autoservicio.

Gobernanza federada

Al adoptar una plataforma de datos distribuida de autoservicio, debe darle un mayor énfasis a la gobernanza. La falta de gobernanza desemboca en silos y duplicación de datos en los dominios de datos. Federe su gobernanza, ya que existen personas que entienden la necesidad de gobernanza dentro de sus equipos alineados con el dominio y entre los propietarios de los datos.

Para crear la gobernanza federada, implemente directivas automatizadas en torno a las necesidades de la plataforma y de los datos. Use un alto grado de automatización para las pruebas y la supervisión. Adopte una estrategia de implementar primero el código para controlar los estándares, las directivas, los productos de datos y la implementación de la plataforma como código.

Para obtener más información sobre la implementación de aspectos de gobernanza federada, consulte Introducción a la gobernanza de datos.

Resumen

La malla de datos puede ser una manera eficaz de implementar plataformas de datos empresariales, pero no es la mejor solución para todas las organizaciones. La malla de datos requiere equipos autónomos que puedan funcionar de forma independiente. La malla de datos funciona mejor en organizaciones grandes y complejas, que tienen unidades de negocio independientes y necesitan escalar su adopción de análisis más allá de una sola plataforma y equipo de implementación.

Al usar la malla de datos, tenga especial cuidado al implementar la gobernanza, para que no se creen silos. Aplicar la filosofía de pensar en el producto a los datos es primordial en la implementación para garantizar el éxito.

Pasos siguientes