¿Qué es Azure Databricks?

Azure Databricks es una plataforma de análisis unificada y abierta para crear, implementar, compartir y mantener soluciones de datos, análisis e IA de nivel empresarial a escala. La plataforma Data Intelligence de Databricks se integra con el almacenamiento en la nube y la seguridad de su cuenta en la nube, y administra e implementa la infraestructura en la nube en su nombre.

¿Cómo funciona una plataforma de inteligencia de datos?

Azure Databricks usa inteligencia artificial generativa con el almacén de lago de datos para comprender la semántica única de los datos. A continuación, optimiza automáticamente el rendimiento y administra la infraestructura para adaptarla a las necesidades de su empresa.

El procesamiento de lenguaje natural aprende el lenguaje de su empresa, para que pueda buscar y detectar datos haciendo una pregunta con sus propias palabras. La asistencia del lenguaje natural le ayuda a escribir código, solucionar errores y encontrar respuestas en la documentación.

Por último, los datos y aplicaciones de IA pueden confiar en una gobernanza y seguridad sólidas. Puede integrar API como OpenAI sin poner en peligro la privacidad de los datos y el control de IP.

¿Para qué se usa Azure Databricks?

Azure Databricks proporciona herramientas que le ayudan a conectar los orígenes de datos a una plataforma para procesar, almacenar, compartir, analizar, modelar y monetizar conjuntos de datos con soluciones de BI a inteligencia artificial generativa.

El área de trabajo de Azure Databricks proporciona una interfaz unificada y herramientas para la mayoría de las tareas de datos, entre las que se incluyen:

  • Programación y administración de procesamiento de datos, en particular ETL
  • Generación de paneles y visualizaciones
  • Administración de la seguridad, la gobernanza, la alta disponibilidad y la recuperación ante desastres
  • Detección, anotación y exploración de datos
  • Modelado, seguimiento y servicio de modelos de Machine Learning (ML)
  • Soluciones de IA generativa

Integración administrada con código abierto

Databricks tiene un fuerte compromiso con la comunidad de código abierto. Databricks administra las actualizaciones de las integraciones de código abierto en las versiones de Databricks Runtime. Las siguientes tecnologías son proyectos de código abierto que crearon al principio empleados de Databricks:

Herramientas y acceso mediante programación

Azure Databricks mantiene una serie de herramientas de su propiedad que integran y amplían estas tecnologías para agregar un rendimiento optimizado y facilidad de uso, como las siguientes:

Además de la interfaz de usuario del área de trabajo, puede interactuar con Azure Databricks mediante programación con las siguientes herramientas:

  • API DE REST
  • CLI
  • Terraform

¿Cómo funciona Azure Databricks con Azure?

La arquitectura de la plataforma de Azure Databricks consta de dos partes principales:

  • La infraestructura que usa Azure Databricks para implementar, configurar y administrar la plataforma y los servicios.
  • La infraestructura propiedad del cliente administrada en colaboración por Azure Databricks y su empresa.

A diferencia de muchas empresas de datos empresariales, Azure Databricks no le obliga a migrar los datos a sistemas de almacenamiento de su propiedad para usar la plataforma. En su lugar, se configura un área de trabajo de Azure Databricks mediante la configuración de integraciones seguras entre la plataforma de Azure Databricks y la cuenta en la nube y, a continuación, Azure Databricks implementa clústeres de proceso mediante recursos en la nube de su cuenta para procesar y almacenar los datos en el almacenamiento de objetos y otros servicios integrados que usted controle.

El catálogo de Unity amplía aún más esta relación, lo que le permite administrar permisos para acceder a los datos mediante la sintaxis SQL conocida desde Azure Databricks.

Las áreas de trabajo de Azure Databricks cumplen los requisitos de seguridad y redes de algunas de las empresas más grandes y más inclinadas a la seguridad del mundo. Azure Databricks facilita a los nuevos usuarios empezar a trabajar en la plataforma. Elimina muchas de las cargas y preocupaciones de trabajar con la infraestructura en la nube, sin limitar las personalizaciones y controlar los datos experimentados, las operaciones y la seguridad que los equipos requieren.

¿Cuáles son los casos de uso comunes de Azure Databricks?

Los casos de uso de Azure Databricks son tan variados como los datos procesados en la plataforma y los muchos roles de los empleados que trabajan con datos como parte principal de su trabajo. Los siguientes casos de uso resaltan cómo los usuarios de toda la organización pueden aprovechar Azure Databricks para realizar tareas esenciales para procesar, almacenar y analizar los datos que impulsan las decisiones y las funciones empresariales críticas.

Creación de un almacén de lago de datos empresarial

El almacén de lago de datos combina la fuerza de los almacenes de datos y los lagos de datos empresariales para acelerar, simplificar y unificar las soluciones de datos empresariales. Los ingenieros de datos, los científicos de datos, los analistas y los sistemas de producción pueden usar el almacén de lago de datos como una única fuente de verdad, lo que permite el acceso puntual a datos coherentes y reduce las complejidades de crear, mantener y sincronizar muchos sistemas de datos distribuidos. Consulte ¿Qué es un almacén de lago de datos?.

ETL e ingeniería de datos

Tanto si está generando paneles como si está generando aplicaciones de inteligencia artificial, la ingeniería de datos proporciona la red troncal para las empresas centradas en datos asegurándose de que los datos están disponibles, limpios y almacenados en modelos de datos que permiten una detección y un uso eficaces. Azure Databricks combina la eficacia de Apache Spark con Delta Lake y herramientas personalizadas para proporcionar una experiencia de ETL (extracción, transformación y carga) inigualable. Puede usar SQL, Python y Scala para crear la lógica de ETL y, a continuación, orquestar la implementación de trabajos programados con tan solo unos clics.

Delta Live Tables simplifica aún más la ETL al administrar de forma inteligente las dependencias entre conjuntos de datos e implementar y escalar automáticamente la infraestructura de producción para garantizar la entrega puntual y precisa de los datos según sus especificaciones.

Azure Databricks proporciona una serie de herramientas personalizadas para la ingesta de datos, incluido Auto Loader, una herramienta eficaz y escalable para cargar datos de forma incremental e idempotente desde el almacenamiento de objetos en la nube y los lagos de datos en el almacén de lago de datos.

Aprendizaje automático, inteligencia artificial y ciencia de datos

El aprendizaje automático de Azure Databricks amplía la funcionalidad básica de la plataforma con un conjunto de herramientas adaptadas a las necesidades de los científicos de datos e ingenieros de aprendizaje automático, incluidos MLflow y Databricks Runtime para Machine Learning.

Modelos de lenguaje grandes e inteligencia artificial generativa

Databricks Runtime para Machine Learning incluye bibliotecas como Hugging Face Transformers que permiten integrar modelos previamente entrenados existentes u otras bibliotecas de código abierto en el flujo de trabajo. La integración de MLflow de Databricks facilita el uso del servicio de seguimiento de MLflow con canalizaciones, modelos y componentes de procesamiento de transformadores. Además, puede integrar modelos o soluciones de OpenAI de asociados como John Snow Labs en los flujos de trabajo de Databricks.

Con Azure Databricks, puede personalizar un LLM en los datos de su tarea específica. Con la compatibilidad de herramientas de código abierto como Hugging Face y DeepSpeed, puede tomar eficazmente un LLM de base y empezar a entrenar con sus propios datos para tener más precisión para el dominio y la carga de trabajo.

Además, Azure Databricks proporciona funciones de inteligencia artificial que los analistas de datos de SQL pueden usar para acceder a los modelos LLM, como desde OpenAI, directamente dentro de sus canalizaciones de datos y flujos de trabajo. Consulte Funciones de IA en Azure Databricks.

Almacenamiento de datos, análisis y BI

Azure Databricks combina interfaces de usuario fáciles de usar con recursos de proceso rentables y almacenamiento asequible infinitamente escalable para proporcionar una plataforma eficaz para ejecutar consultas analíticas. Los administradores configuran clústeres de proceso escalables como almacenes de SQL, lo que permite a los usuarios finales ejecutar consultas sin preocuparse por ninguna de las complejidades de trabajar en la nube. Los usuarios de SQL pueden ejecutar consultas en los datos del almacén de lago de datos mediante el editor de consultas SQL o en cuadernos. Los cuadernos admiten Python, R y Scala, además de SQL, y permiten a los usuarios insertar las mismas visualizaciones disponibles en paneles heredados junto con vínculos, imágenes y comentarios escritos en Markdown.

Gobernanza de datos y uso compartido seguro de datos

El catálogo de Unity proporciona un modelo unificado de gobernanza de datos para el almacén de lago de datos. Los administradores de la nube configuran e integran permisos de control de acceso generales para el catálogo de Unity y, a continuación, los administradores de Azure Databricks pueden administrar los permisos para los equipos e individuos. Los privilegios se administran con listas de control de acceso (ACL) a través de interfaces de usuario fáciles de usar o sintaxis SQL, lo que facilita a los administradores de bases de datos la protección del acceso a los datos sin necesidad de escalar en la administración de acceso a identidades nativas de la nube (IAM) y las redes.

El catálogo de Unity facilita la ejecución de análisis seguros en la nube y proporciona una división de responsabilidades que ayuda a limitar la capacidad de reciclarse o aprender nuevas aptitudes necesarias para los administradores y los usuarios finales de la plataforma. Consulte ¿Qué es Unity Catalog?

El almacén de lago de datos hace que el uso compartido de datos en su organización sea tan sencillo como conceder acceso de consulta a una tabla o vista. Para el uso compartido fuera del entorno seguro, el catálogo de Unity incluye una versión administrada de Delta Sharing.

DevOps, CI/CD y orquestación de tareas

Cada uno de los ciclos de vida de desarrollo para canalizaciones de ETL, modelos de ML y paneles de análisis presenta sus propios desafíos únicos. Azure Databricks permite a todos los usuarios aprovechar un único origen de datos, lo que reduce la duplicación de esfuerzos y los informes fuera de sincronización. Al proporcionar además un conjunto de herramientas comunes para el control de versiones, la automatización, la programación, la implementación de código y los recursos de producción, puede simplificar la sobrecarga de supervisión, orquestación y operaciones. Los trabajos programan cuadernos de Azure Databricks, consultas SQL y otro código arbitrario. Las carpetas de Git le permiten sincronizar los proyectos de Azure Databricks con varios proveedores de Git populares. Para obtener información general completa sobre las herramientas, consulte Herramientas de desarrollo.

Análisis de streaming y en tiempo real

Azure Databricks aprovecha Structured Streaming de Apache Spark para trabajar con datos de streaming y cambios incrementales de datos. Structured Streaming se integra estrechamente con Delta Lake y estas tecnologías proporcionan las bases para Delta Live Tables y Auto Loader. Consulte Streaming en Azure Databricks.