Processo de Ciência de Dados da Equipe para cientistas de dados

Este artigo fornece orientação e treinamento sobre os objetivos a serem definidos ao implementar soluções abrangentes de ciência de dados com tecnologias do Azure.

Objetivos para cientistas de dados

Esta lista descreve os principais objetivos para cientistas de dados que usam o Processo de Ciência de Dados da Equipe (TDSP):

Estes objetivos são cruciais para a preparação da utilização do TDSP. O TDSP descreve uma abordagem abrangente para gerenciar e lançar projetos de ciência de dados de forma eficaz. Este artigo descreve a importância de cada objetivo e fornece links para os recursos relevantes do Azure.

Compreender uma carga de trabalho de análise

  • Identificar requisitos: esta etapa inclui a compreensão das necessidades e objetivos específicos da carga de trabalho de análise. Ajuda a identificar as perguntas de negócio a responder e os problemas a resolver.

  • Definir escopo: esta etapa é sobre definir claramente o escopo do projeto para ajudar a equipe a se concentrar em dados relevantes e tarefas analíticas.

  • Alocar recursos: esta etapa inclui a análise da carga de trabalho para identificar os recursos necessários, como capacidade de computação, armazenamento e experiência humana.

Integração no TDSP

O Azure tem muitos recursos que você pode usar para cargas de trabalho de análise. A lista a seguir fornece recursos recomendados em arquiteturas do Azure.

  • Planeamento e execução: utilize o Cloud Adoption Framework for Azure para planeamento estratégico e governação. Essa estrutura garante que sua carga de trabalho de análise esteja alinhada com as metas de negócios e os requisitos de conformidade. Ele também se baseia na estrutura comparativamente simples que você usa no TDSP. Os recursos do Cloud Adoption Framework incluem:

    • Planejamento estratégico: fornece orientação estratégica para alinhar a adoção da nuvem com os objetivos de negócios. Planejamento estratégico significa que você projeta cargas de trabalho de análise para atender às metas organizacionais.

    • Governança e conformidade: fornece estruturas para governança e conformidade. As estruturas de governança e conformidade fazem com que as cargas de trabalho de processamento e análise de dados adiram aos requisitos normativos e às políticas organizacionais.

    • Migração e modernização: orienta a migração de cargas de trabalho de análise existentes para o Azure para ajudar a garantir o mínimo de interrupção e o desempenho ideal no novo ambiente.

    • Gerenciamento e operações: descreve as melhores práticas para gerenciar e operar recursos de nuvem, o que ajuda a garantir operações de cargas de trabalho analíticas eficientes e confiáveis.

    • Otimização: Fornece ferramentas e metodologias para otimizar continuamente cargas de trabalho. Otimização significa que você usa os recursos de forma eficiente e gerencia os custos de forma eficaz.

  • Desenvolvimento e colaboração: use o Azure Synapse Analytics para desenvolver, testar e implantar soluções de análise e fornecer um ambiente colaborativo para cientistas e engenheiros de dados. Recomendamos que você use a plataforma Azure Synapse Analytics para lidar com big data, como um terabyte ou mais, e para aprendizado de máquina e modelagem de inteligência artificial (IA). Os recursos do Azure Synapse Analytics incluem:

    • Experiência unificada: fornece uma experiência unificada para ingerir, preparar, gerenciar e fornecer dados para necessidades imediatas de business intelligence e aprendizado de máquina.

    • Integração de dados: integra-se perfeitamente com várias fontes de dados, o que permite recursos abrangentes de ingestão e processamento de dados.

    • Big data e data warehousing: combina recursos de big data e data warehousing, o que permite executar consultas complexas em grandes conjuntos de dados de forma eficiente.

    • Escalabilidade: dimensiona recursos computacionais com base em demandas de carga de trabalho, o que garante que você possa lidar com cargas de processamento de dados variáveis de forma eficaz.

    • Colaboração: facilita a colaboração entre equipes de ciência de dados fornecendo espaços de trabalho compartilhados e ambientes de desenvolvimento integrado (IDEs).

    • Analytics: suporta análise avançada e aprendizagem automática com integração incorporada para serviços como Machine Learning e Power BI.

  • Monitoramento e otimização: use o Azure Monitor para acompanhar o desempenho, identificar problemas e otimizar a carga de trabalho de análise. O Azure Monitor ajuda com alta disponibilidade e confiabilidade. Os recursos do Azure Monitor incluem:

    • Coleta de dados: reúne métricas e logs de várias fontes, incluindo recursos do Azure, aplicativos e o sistema operacional.

    • Monitoramento: fornece informações sobre o desempenho e a integridade de suas cargas de trabalho de análise monitorando métricas como uso da CPU, uso de memória e taxa de transferência.

    • Diagnóstico: Ajuda a identificar problemas e anomalias em seus pipelines de processamento de dados e cargas de trabalho por meio de logs de diagnóstico e logs de atividades.

    • Alertas: configura alertas com base em métricas específicas ou dados de log e notifica imediatamente sobre possíveis problemas que podem afetar o desempenho ou a confiabilidade de suas cargas de trabalho de análise.

    • Visualização: fornece painéis e pastas de trabalho personalizáveis para visualizar dados, o que ajuda a entender tendências e padrões no desempenho da carga de trabalho.

Usar o ciclo de vida TDSP

Use o ciclo de vida TDSP para estruturar o desenvolvimento de seus projetos de ciência de dados.

  • Abordagem estruturada: fornece uma estrutura estruturada para a execução de projetos de ciência de dados e promove uma abordagem sistemática e disciplinada.

  • Colaboração: Promove a colaboração entre os membros da equipa através da definição de papéis e responsabilidades claras.

  • Práticas recomendadas: incorpora as melhores práticas do setor e ajuda você a conduzir seus projetos de forma eficiente e eficaz.

Integração para cientistas de dados

O TDSP é uma estrutura arquitetônica revisada por pares que fornece aos cientistas de dados uma estrutura específica para produzir modelos de IA e ciência de dados.

Utilizar o Azure Machine Learning

Use o Machine Learning para criar e implantar modelos de aprendizado de máquina. O Machine Learning é o principal recurso recomendado do Azure para cada um dos cinco estágios do ciclo de vida do TDSP: Compreensão de Negócios, Aquisição e Compreensão de Dados, Modelagem, Implantação e Aceitação do Cliente. Os recursos do Machine Learning incluem:

  • Análise avançada: fornece ferramentas e serviços poderosos para criar, treinar e implantar modelos de aprendizado de máquina.

  • Escalabilidade: fornece recursos de computação escaláveis que permitem que as equipes lidem com grandes conjuntos de dados e modelos complexos.

  • Integração: integra-se bem com outros serviços do Azure e facilita um fluxo de trabalho contínuo desde a ingestão de dados até a implantação.

Veja como o Machine Learning suporta cada estágio do TDSP:

Compreensão empresarial

Nesta fase inicial, o Machine Learning ajuda-o a compreender os seus requisitos de negócio e a definir os objetivos do seu projeto de ciência de dados.

  • Espaços de trabalho de projeto: fornece espaços de trabalho de projeto onde as equipes podem colaborar e compartilhar documentos. A colaboração ajuda todos a se alinharem com os objetivos de negócios.

  • Acompanhamento de experimentos: suporta documentação e a capacidade de rastrear as hipóteses iniciais e métricas de negócios que orientam seu projeto de ciência de dados.

  • Integração com o Azure DevOps: gerencia fluxos de trabalho de projeto, histórias de usuários e tarefas. O Azure DevOps ajuda a mapear o entendimento de negócios para itens acionáveis.

Aquisição e compreensão de dados

Nesta etapa, o Machine Learning ajuda você a coletar e explorar dados para entender sua estrutura e relevância para o problema de negócios.

  • Integração de dados: o Machine Learning integra-se perfeitamente com o Azure Data Lake, a Base de Dados SQL do Azure e outros serviços de dados, facilitando a ingestão fácil de dados de várias fontes.

  • Rotulagem de dados: ferramentas integradas de rotulagem de dados que ajudam a anotar conjuntos de dados, o que é útil para modelos de aprendizagem supervisionada.

  • Análise exploratória de dados (EDA): notebooks Jupyter e ambientes Python/R integrados em Machine Learning permitem que o EDA completo compreenda distribuições de dados, identifique padrões e detete anomalias.

Modelação

Nesta etapa, os cientistas de dados criam e treinam modelos de aprendizado de máquina para resolver problemas de negócios.

  • Aprendizado de máquina automatizado: seleciona os melhores algoritmos automaticamente e ajusta hiperparâmetros que aceleram o processo de desenvolvimento do modelo.

  • Modelagem personalizada: Suporta o desenvolvimento de modelos personalizados usando estruturas populares como TensorFlow, PyTorch e scikit-learn.

  • Experimentação e controle de versão: Suporta a execução de vários experimentos em paralelo, o acompanhamento de resultados e modelos de controle de versão, o que facilita a comparação e a seleção do melhor modelo.

  • Ajuste de hiperparâmetros: otimiza o desempenho do modelo com suporte integrado para ajuste automatizado de hiperparâmetros.

Implementação

Nesta etapa, depois de desenvolver e validar seu modelo, o Machine Learning o implanta para uso em ambientes de produção.

  • Implantação de modelo: fornece várias opções de implantação, incluindo o Serviço Kubernetes do Azure (AKS) e dispositivos de borda, que permitem estratégias de implantação flexíveis.

  • Gerenciamento de endpoints: fornece ferramentas para gerenciar endpoints para previsões em tempo real e em lote e ajuda com o fornecimento de modelos escaláveis e confiáveis.

  • Integração contínua e implantação contínua (CI/CD): integra-se ao Azure DevOps, que permite que o CI/CD para modelos de aprendizado de máquina crie transições repetíveis do desenvolvimento para a produção.

Aceitação do cliente

Nesta etapa final, seu foco é usar o Machine Learning para fazer com que o modelo implantado atenda aos requisitos de negócios e forneça valor.

  • Monitoramento de modelos: fornece recursos de monitoramento abrangentes para rastrear o desempenho do modelo, detetar desvios e manter os modelos precisos e relevantes ao longo do tempo.

  • Loops de feedback: Suporta a implementação de loops de feedback onde você usa e revisa previsões para treinar novamente os modelos e melhorar continuamente a precisão e a relevância do modelo.

  • Relatórios e visualização: integra-se com blocos de anotações, Power BI e outras ferramentas de visualização para criar painéis e relatórios e apresentar resultados de modelo e insights para as partes interessadas.

  • Segurança e conformidade: ajuda a manter os modelos e dados em conformidade com os requisitos regulamentares e fornece ferramentas para gerir a privacidade e a segurança dos seus dados.

Compreender os fundamentos da transferência e armazenamento de dados

A transferência e o armazenamento de dados eficazes são bases essenciais para o gerenciamento seguro de grandes volumes de dados.

  • Gerenciamento de dados: ajuda você a gerenciar grandes volumes de dados da maneira mais eficaz, compatível e eficiente.

  • Acessibilidade: Ajuda a tornar os dados facilmente acessíveis aos membros da equipe e às ferramentas analíticas, o que é essencial para a colaboração e o processamento em tempo real.

  • Conformidade e segurança: Ajuda o tratamento de dados a cumprir os requisitos legais e regulamentares e protege os dados confidenciais.

Integre a transferência e o armazenamento de dados no TDSP

O Azure tem muitos recursos que você pode usar para transferência e armazenamento de dados. A lista a seguir fornece recursos recomendados para arquiteturas do Azure.

Opções de transferência de dados do Azure: Inclui vários métodos e ferramentas para mover dados de e para o Azure de forma eficiente, que acomoda diferentes necessidades de dados e tamanhos de dados.

  • Azure Data Box: transfere dados em grande escala e em massa para o Azure usando um dispositivo físico sem depender da Internet. Ele transfere com segurança terabytes de dados onde a largura de banda da rede é limitada.

  • Serviço de Importação/Exportação do Azure: dá suporte à transferência de grandes quantidades de dados para o Azure enviando discos rígidos diretamente para os datacenters do Azure. Este serviço é útil para migrações iniciais de dados em que o upload por meio de uma rede é impraticável.

  • Azure Data Factory: automatiza e lida com a transferência de dados. O Data Factory é um serviço de integração de dados baseado na nuvem que orquestra e automatiza a movimentação e a transformação de dados. Ele permite processos complexos de ETL (extrair, transformar, carregar) e integra dados de várias fontes no Azure para tarefas de análise e aprendizado de máquina.

  • Transferência de rede: inclui transferências de alta velocidade baseadas na Internet usando a Rota Expressa do Azure. A transferência de rede fornece uma conexão privada entre a infraestrutura local e o Azure que ajuda a transferir dados com segurança e rapidez.

Serviço de Migração de Banco de Dados do Azure: lida com a migração de bancos de dados para o Azure para minimizar o tempo de inatividade e dar suporte à integridade dos dados. O Serviço de Migração de Banco de Dados é um serviço totalmente gerenciado projetado para permitir migrações contínuas de várias fontes de banco de dados para plataformas de dados do Azure com tempo de inatividade mínimo (ou migrações online). Proporciona os seguintes benefícios:

  • Migração automatizada: simplifica o processo de migração fornecendo fluxos de trabalho automatizados para mover bancos de dados locais para o Banco de Dados SQL, o Banco de Dados do Azure para MySQL e o Banco de Dados do Azure para PostgreSQL.

  • Replicação contínua: suporta replicação contínua de dados, o que permite um tempo de inatividade mínimo e mantém os dados atualizados durante o processo de migração.

  • Compatibilidade: dá suporte a verificações de compatibilidade e recomenda otimizações para o ambiente do Azure de destino para tornar a transição perfeita e eficiente.

  • Ferramentas de avaliação: Fornece ferramentas para avaliar a prontidão dos bancos de dados para a migração, a fim de identificar problemas potenciais e oferecer recomendações para resolvê-los.

Armazenamento do Azure: fornece soluções de armazenamento escaláveis, seguras e duráveis personalizadas para diferentes tipos de dados e casos de uso. Os seguintes tipos de armazenamento são suportados:

  • Armazenamento de Blob: armazena dados não estruturados, como documentos, imagens, vídeos e backups. É ideal para cientistas de dados que precisam armazenar grandes conjuntos de dados para modelos de aprendizado de máquina.

  • Azure Data Lake Storage: lida com análises de big data. O Data Lake Storage fornece namespace hierárquico e compatibilidade com o Hadoop, o que o torna adequado para projetos de análise de dados em grande escala.

  • Armazenamento de tabela do Azure: armazena valores de chave NoSQL para dados semiestruturados e é adequado para aplicativos que exigem um design sem esquema.

  • Armazenamento de arquivos do Azure: gerencia compartilhamentos de arquivos na nuvem que você acessa por meio do protocolo SMB padrão, que é útil para necessidades de armazenamento compartilhado.

  • Armazenamento de Filas do Azure: fornece mensagens entre componentes de aplicativos, o que é útil para desacoplar e dimensionar serviços.

Fornecer documentação da fonte de dados

  • Transparência de dados: a documentação sobre fontes de dados fornece transparência sobre a origem dos dados, sua qualidade e suas limitações.

  • Reprodutibilidade: A documentação adequada ajuda outros membros da equipe ou partes interessadas a entender e reproduzir o processo de ciência de dados.

  • Integração de dados: A integração de dados significa integrar eficazmente várias fontes de dados, fornecendo uma compreensão clara da origem e da estrutura dos dados.

Integrar a documentação da fonte de dados no TDSP

O Azure tem muitos recursos que você pode usar para documentação da fonte de dados, incluindo blocos de anotações. A lista a seguir fornece recursos recomendados para arquiteturas do Azure.

O Catálogo de Dados do Azure é um catálogo de metadados em toda a empresa que torna a descoberta de ativos de dados simples. Ele ajuda a documentar as fontes de dados e suas características e oferece os seguintes benefícios:

  • Gerenciamento de metadados: permite que os usuários registrem fontes de dados e adicionem metadados que incluem descrições, tags e anotações.

  • Descoberta de fonte de dados: fornece um catálogo pesquisável para que os usuários localizem e entendam as fontes de dados disponíveis na organização.

  • Colaboração: permite que os usuários compartilhem informações e documentação sobre fontes de dados, o que melhora a colaboração entre os membros da equipe.

  • Informações da fonte de dados: extrai e documenta informações sobre fontes de dados automaticamente. As informações extraídas incluem esquemas, tabelas, colunas e relações.

Azure Purview Fornece um serviço unificado de governança de dados que ajuda a gerenciar e governar dados em toda a sua organização. Oferece as seguintes funcionalidades:

  • Mapeamento de dados e linhagem: Ajuda a documentar o fluxo de dados e a linhagem em diferentes sistemas, o que fornece uma visão clara de onde os dados vêm e como eles se transformam.

  • Catálogo de dados: fornece um catálogo de dados pesquisável enriquecido com metadados e classificações de dados, que é semelhante ao Catálogo de Dados no Azure.

  • Glossário de negócios: ajuda a criar e manter um glossário de negócios para manter uma terminologia consistente e promover a compreensão em toda a organização.

  • Insights e análises: fornece informações sobre o uso de dados e ajuda a identificar problemas de qualidade de dados, o que melhora o processo de documentação.

Usar ferramentas para processamento de análises

  • Eficiência: As ferramentas certas para o processamento de análises aumentam a eficiência e a velocidade da análise de dados.

  • Capacidades: Diferentes ferramentas oferecem vários recursos, como visualização de dados, análise estatística e aprendizado de máquina, que são essenciais para a ciência de dados abrangente.

  • Produtividade: ferramentas especializadas podem melhorar significativamente a produtividade dos cientistas de dados, automatizando tarefas repetitivas e fornecendo funções analíticas avançadas.

Integre o processamento de análises no TDSP

O Azure tem muitos serviços que pode utilizar para processamento de análises, com o Aprendizagem Automática como o principal serviço recomendado. A lista a seguir fornece serviços recomendados para arquiteturas do Azure que exigem recursos além do Machine Learning.

Azure Synapse Analytics Permite processar grandes volumes de dados relacionais e não relacionais. É um serviço de análise integrado que acelera o tempo de insight em armazéns de dados e sistemas de big data. O Azure Synapse Analytics fornece a seguinte funcionalidade:

  • Integração de dados: integra dados de várias fontes que permitem a ingestão e o processamento de dados sem interrupções.

  • SQL Data Warehouse: fornece recursos de armazenamento de dados corporativos com consultas de alto desempenho.

  • Apache Spark: Fornece pools Spark para processamento de big data que suporta análise de dados em larga escala e aprendizado de máquina.

  • Synapse Studio: Permite que cientistas de dados criem colaborativamente soluções de análise de ponta a ponta. Synapse Studio é um ambiente de desenvolvimento integrado (IDE).

O Azure Databricks é uma plataforma de análise baseada no Apache Spark otimizada para o Azure que fornece os seguintes recursos:

  • Blocos de anotações colaborativos: suporta espaços de trabalho colaborativos onde cientistas de dados podem escrever código, executar experimentos e compartilhar resultados.

  • Computação escalável: dimensiona recursos de computação automaticamente com base nas demandas de carga de trabalho e otimiza o custo e o desempenho.

  • Machine learning: fornece bibliotecas integradas para aprendizado de máquina, incluindo MLlib, TensorFlow e Keras, para simplificar o desenvolvimento e o treinamento de modelos.

Data Factory: orquestra a movimentação e a transformação de dados por meio de seu serviço de integração de dados baseado em nuvem. O Data Factory suporta as seguintes funcionalidades:

  • Pipelines ETL: Permite criar pipelines ETL (extrair, transformar, carregar) para processar e preparar dados para análise.

  • Fluxo de dados: fornece criação de fluxo de dados visual para projetar e executar processos de transformação de dados sem escrever código.

  • Integração: conecta-se a uma ampla variedade de fontes de dados, incluindo armazenamentos de dados locais e baseados em nuvem. Esta função fornece integração de dados abrangente.

O Azure Stream Analytics processa fluxos de dados em movimento rápido. O Stream Analytics é um serviço de análise em tempo real que fornece os seguintes recursos:

  • Processamento de fluxo: processa dados de várias fontes, como dispositivos IoT, sensores e aplicativos em tempo real.

  • Consulta baseada em SQL: usa uma linguagem familiar baseada em SQL para definir a lógica de processamento de fluxo para torná-la acessível para cientistas de dados.

  • Integração: integra-se com outros serviços do Azure, como Hubs de Eventos e Hub IoT, para ingestão e processamento de dados contínuos.

Resumo

Esta lista sequencial ajuda-o a preparar-se de forma abrangente para utilizar o TDSP:

  1. Estabeleça uma compreensão clara dos requisitos e do escopo do projeto.

  2. Adotar uma abordagem estruturada e colaborativa para a execução do projeto.

  3. Use ferramentas e serviços avançados para aprendizado de máquina e análise.

  4. Garanta uma gestão de dados eficiente e segura.

  5. Manter a transparência e a reprodutibilidade através da documentação.

  6. Utilizar ferramentas adequadas para aumentar a eficiência e a eficácia do tratamento de dados.

A preparação é fundamental para entregar projetos de ciência de dados bem-sucedidos que atendam aos objetivos de negócios e adiram às melhores práticas.

Percursos de formação sobre o Microsoft Learn

Quer esteja apenas a iniciar uma carreira ou seja um profissional experiente, a nossa abordagem autodirigida ajuda-o a alcançar os seus objetivos mais rapidamente, com mais confiança e ao seu próprio ritmo. Desenvolva habilidades através de módulos e caminhos interativos ou aprenda com um instrutor. Aprenda e cresça à sua maneira.

O Microsoft Learn organiza seu conteúdo de treinamento em três níveis de habilidade: iniciante, intermediário e avançado. Compreender estas distinções é essencial para selecionar os caminhos de aprendizagem adequados para corresponder ao seu nível de competências e objetivos de carreira.

Iniciante

  • Público-alvo: Indivíduos que são novos na tecnologia ou conceitos abrangidos.
  • Conteúdo: Introduções básicas aos conceitos, habilidades fundamentais e etapas iniciais necessárias para começar. Normalmente, abrange princípios fundamentais e conhecimentos fundamentais.

Finalidade:

  • Construa uma base sólida em uma nova área
  • Ajudar os alunos a compreender conceitos básicos e terminologias
  • Preparar os alunos para artigos mais complexos

Percursos de aprendizagem para principiantes

Intermédio

  • Público-alvo: Indivíduos que têm uma compreensão básica da tecnologia e estão procurando aprofundar seus conhecimentos.
  • Conteúdo: Habilidades mais detalhadas e práticas, incluindo exercícios práticos e cenários do mundo real. Requer um mergulho mais profundo no assunto.

Finalidade:

  • Colmatar a lacuna entre a compreensão básica e a proficiência avançada
  • Permitir que os alunos lidem com tarefas e cenários mais complexos
  • Preparar os alunos para exames de certificação ou funções especializadas

Percursos de aprendizagem intermédios

Avançado

  • Público-alvo: Profissionais experientes que procuram aperfeiçoar suas habilidades e lidar com tarefas complexas e de alto nível.
  • Conteúdo: Formação técnica aprofundada, técnicas avançadas e cobertura abrangente de assuntos especializados. Muitas vezes, inclui estratégias de resolução de problemas e otimização de nível especializado.

Finalidade:

  • Fornecer conhecimentos especializados numa área específica
  • Preparar os alunos para certificações de nível especializado e funções avançadas na carreira
  • Permitir que os alunos liderem projetos e inovem dentro do seu campo

Percurso de aprendizagem especializado

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Próximos passos

Continue sua jornada de IA no hub de aprendizagem de IA.