Elección de una tecnología de análisis de datos e informes en Azure

El objetivo de la mayoría de soluciones de macrodatos consiste en proporcionar información sobre los datos a través de análisis e informes. Esto puede incluir los informes preconfigurados y las visualizaciones, o la exploración de datos interactivos.

¿Cuáles son las opciones a la hora de elegir una tecnología de análisis de datos?

Hay varias opciones de generación de análisis, visualizaciones e informes en Azure dependiendo de sus necesidades:

Power BI

Power BI es un conjunto de herramientas de análisis de negocios. Puede conectarse a cientos de orígenes de datos y se puede usar para el análisis ad-hoc. Consulte esta lista de los orígenes de datos disponibles actualmente. Use Power BI Embedded para integrar Power BI dentro de sus propias aplicaciones sin necesidad de ninguna licencia adicional.

Las organizaciones pueden usar Power BI para generar informes y publicarlos en la organización. Todos los usuarios pueden crear paneles personalizados, con gobernanza y seguridad integradas. Power BI usa Microsoft Entra ID para autenticar a los usuarios que inician sesión en el servicio Power BI, y utiliza las credenciales de inicio de sesión de Power BI cada vez que un usuario intenta acceder a los recursos que requieren autenticación.

Cuadernos de Jupyter Notebook

Jupyter Notebooks proporciona un shell basado en el explorador que permite a los científicos de datos crear archivos de cuaderno que contienen código Python, Scala o R, y texto Markdown, lo cual lo convierte en una herramienta eficaz de colaboración a través del uso compartido y la documentación del código y los resultados en un único documento.

La mayoría de las variedades de clústeres de HDInsight, como Spark o Hadoop, ya vienen preconfiguradas con Jupyter Notebooks para interactuar con datos y enviar trabajos para su procesamiento. Según el tipo de clúster de HDInsight que use, se proporcionarán uno o varios kernels para interpretar y ejecutar el código. Por ejemplo, los clústeres de Spark en HDInsight proporcionan kernels relacionados con Spark entre los que puede seleccionar para ejecutar código Python o Scala con el motor de Spark.

Jupyter Notebooks proporciona un entorno estupendo para analizar, visualizar y procesar los datos antes de generar visualizaciones más avanzadas con una herramienta de inteligencia empresarial o de informes como Power BI.

Zeppelin Notebooks

Zeppelin Notebooks es otra opción de un shell basado en el explorador parecida a la funcionalidad de Jupyter. Algunos clústeres de HDInsight vienen preconfigurados con Zeppelin Notebooks. Sin embargo, si usa un clúster de HDInsight Interactive Query (Hive LLAP), Zeppelin es la única opción de cuaderno que puede usar actualmente para ejecutar consultas interactivas de Hive. Además, si usa un clúster de HDInsight unido a un dominio, Zeppelin Notebooks es el único tipo que le permite asignar inicios de sesión de usuario diferentes para controlar el acceso a los cuadernos y a las tablas subyacentes de Hive.

Jupyter Notebook en VS Code

VS Code es un editor de código y una plataforma de desarrollo gratuitos que puede utilizar de forma local o conectado a un ordenador remoto. Combinado con la extensión Jupyter, ofrece un entorno completo para el desarrollo de Jupyter que puede mejorarse con extensiones de lenguaje adicionales. Si desea una experiencia de Jupyter gratuita y de primera clase, con la posibilidad de usar el ordenador de su elección, esta es una muy buena opción. Con VS Code, puede desarrollar y ejecutar blocs de notas en los repositorios remotos y contenedores. Para facilitar la transición desde Azure Notebooks, hemos puesto a disposición la imagen del contenedor para que pueda utilizarse también con VS Code.

Jupyter (anteriormente conocido como IPython Notebook) es un proyecto de código abierto que permite combinar fácilmente texto Markdown y código fuente Python ejecutable en un solo lienzo denominado cuaderno. Visual Studio Code admite el trabajo con Jupyter Notebook de forma nativa y a través de archivos de código de Python.

Principales criterios de selección

Para restringir las opciones, empiece por responder a estas preguntas:

  • ¿Necesita conectarse a varios orígenes de datos y proporcionar un lugar centralizado para crear informes de datos propagados por todo el dominio? Si es así, elija una opción que le permita conectarse a 100s de orígenes de datos.

  • ¿Desea insertar visualizaciones dinámicas en un sitio web o aplicación externos? Si es así, elija una opción que proporcione funcionalidades de inserción.

  • ¿Quiere diseñar las visualizaciones y los informes cuando está sin conexión? En caso afirmativo, elija una opción que disponga de funcionalidades sin conexión.

  • ¿Necesita una gran capacidad de procesamiento para entrenar modelos de inteligencia artificial grandes o complejos o trabajar con conjuntos de datos muy grandes? En caso afirmativo, elija una opción en la que pueda conectarse a un clúster de macrodatos.

Matriz de funcionalidades

En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.

Funcionalidades generales

Capacidad Power BI Cuadernos de Jupyter Notebook Zeppelin Notebooks Jupyter Notebook en VS Code
Conexión a clúster de macrodatos para procesamiento avanzado No
Servicio administrado 1 1
Conexión a 100s de orígenes de datos No N.º No
Funcionalidades sin conexión 2 No N.º No
Funcionalidades de inserción No N.º No
Actualización de datos automática No N.º No
Acceso a numerosos paquetes de código abierto No 3 3 4
Opciones de transformación y limpieza de datos Power Query, R 40 lenguajes, incluidos Python, R, Julia y Scala Más de 20 intérpretes, incluidos Python, JDBC y R Python, F#, R
Precios Es gratis para Power BI Desktop (creación), consulte los Precios de las opciones de hospedaje Gratuito Gratuito Gratuito
Colaboración multiusuario Sí (mediante el uso compartido o con un servidor multiusuario como JupyterHub) Sí (mediante el uso compartido)

[1] Cuando se utiliza como parte de un clúster de HDInsight administrado.

[2] Con el uso de Power BI Desktop.

[2] Puede buscar el repositorio Maven para obtener paquetes en los que contribuyó la comunidad.

[3] Los paquetes de Python se pueden instalar a través de pip o Conda. Los paquetes de R se pueden instalar desde CRAN o GitHub. Los paquetes en F # se pueden instalar a través de nuget.org mediante el administrador de dependencias Paket.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Pasos siguientes