Exemplo de blocos de anotações Jupyter mostram como enriquecer dados com Open Datasets

Os blocos de anotações Jupyter de exemplo para conjuntos de dados abertos do Azure explicam como carregar conjuntos de dados abertos e usá-los para enriquecer dados de demonstração. As técnicas incluem o uso de Apache Spark e Pandas para processar dados.

Importante

Ao trabalhar em um ambiente não-Spark, Open Datasets permite downloads de apenas um mês de dados de cada vez com determinadas classes, para evitar problemas MemoryError com grandes conjuntos de dados.

Carregar dados do Banco de Dados Integrado de Superfície (ISD) da NOAA

Bloco de Notas Description
Carregue um mês recente de dados meteorológicos em um dataframe Pandas Saiba como carregar dados meteorológicos históricos no seu dataframe Pandas favorito.
Carregue um mês recente de dados meteorológicos em um dataframe do Spark Saiba como carregar dados meteorológicos históricos no seu dataframe favorito do Spark.

Junte-se a dados de demonstração com dados ISD da NOAA

Bloco de Notas Description
Junte-se a dados de demonstração com dados meteorológicos - Pandas Junte-se a um conjunto de dados de demonstração de um mês de locais de sensores com leituras meteorológicas em um dataframe Pandas.
Junte-se a dados de demonstração com dados meteorológicos – Spark Junte-se a um conjunto de dados de demonstração de locais de sensores com leituras meteorológicas em um dataframe do Spark.

Junte-se aos dados de táxi de Nova York com os dados ISD da NOAA

Bloco de Notas Description
Dados de viagem de táxi enriquecidos com dados meteorológicos - Pandas Carregue dados de táxi verde de Nova York (mais de um mês) e enriqueça-os com dados meteorológicos em um dataframe Pandas. Este exemplo substitui o método get_pandas_limit e equilibra o desempenho da carga de dados com a quantidade de dados.
Dados de viagem de táxi enriquecidos com dados meteorológicos – Spark Carregue dados de táxi verde de Nova York e enriqueça-os com dados meteorológicos no dataframe do Spark.

Próximos passos