Exemplo de blocos de anotações Jupyter mostram como enriquecer dados com Open Datasets
Os blocos de anotações Jupyter de exemplo para conjuntos de dados abertos do Azure explicam como carregar conjuntos de dados abertos e usá-los para enriquecer dados de demonstração. As técnicas incluem o uso de Apache Spark e Pandas para processar dados.
Importante
Ao trabalhar em um ambiente não-Spark, Open Datasets permite downloads de apenas um mês de dados de cada vez com determinadas classes, para evitar problemas MemoryError com grandes conjuntos de dados.
Carregar dados do Banco de Dados Integrado de Superfície (ISD) da NOAA
Bloco de Notas | Description |
---|---|
Carregue um mês recente de dados meteorológicos em um dataframe Pandas | Saiba como carregar dados meteorológicos históricos no seu dataframe Pandas favorito. |
Carregue um mês recente de dados meteorológicos em um dataframe do Spark | Saiba como carregar dados meteorológicos históricos no seu dataframe favorito do Spark. |
Junte-se a dados de demonstração com dados ISD da NOAA
Bloco de Notas | Description |
---|---|
Junte-se a dados de demonstração com dados meteorológicos - Pandas | Junte-se a um conjunto de dados de demonstração de um mês de locais de sensores com leituras meteorológicas em um dataframe Pandas. |
Junte-se a dados de demonstração com dados meteorológicos – Spark | Junte-se a um conjunto de dados de demonstração de locais de sensores com leituras meteorológicas em um dataframe do Spark. |
Junte-se aos dados de táxi de Nova York com os dados ISD da NOAA
Bloco de Notas | Description |
---|---|
Dados de viagem de táxi enriquecidos com dados meteorológicos - Pandas | Carregue dados de táxi verde de Nova York (mais de um mês) e enriqueça-os com dados meteorológicos em um dataframe Pandas. Este exemplo substitui o método get_pandas_limit e equilibra o desempenho da carga de dados com a quantidade de dados. |
Dados de viagem de táxi enriquecidos com dados meteorológicos – Spark | Carregue dados de táxi verde de Nova York e enriqueça-os com dados meteorológicos no dataframe do Spark. |