O estágio de entendimento empresarial do ciclo de vida do Processo de Ciência de Dados da Equipe

Este tópico descreve as metas, as tarefas e as entregas associadas ao estágio de entendimento de negócios do TDSP (Processo de Ciência de Dados da Equipe). Esse processo fornece um ciclo de vida recomendado que a sua equipe pode usar para estruturar seus projetos de ciência de dados. O ciclo de vida descreve os principais estágios que sua equipe executa, geralmente de forma iterativa:

  • Noções básicas sobre negócios
  • Aquisição de dados e entendimento
  • Modelagem
  • Implantação
  • Aceitação do cliente

Esta é uma representação visual do ciclo de vida do TDSP:

Diagrama que mostra os estágios do ciclo de vida do TDSP.

Metas

Os objetivos da etapa de reconhecimento empresarial são:

  • Especificar as variáveis-chave que servem como metas modelo. E especificar as métricas das metas, que determinam o sucesso do projeto.

  • Identifique as fontes de dados relevantes, às quais a empresa tem acesso ou precisa obtê-lo.

Como concluir as tarefas

O estágio de reconhecimento empresarial tem duas tarefas principais:

  • Definir os objetivos: trabalhe com o cliente e outros stakeholders para compreender e identificar problemas de negócios. Formule perguntas que definem as metas de negócios e que as técnicas de ciência de dados podem ter como meta.

  • Identificar as fontes de dados: encontre os dados relevantes que ajudam a responder as perguntas que definem os objetivos do projeto.

Definir os objetivos

  1. Um objetivo central deste estágio é identificar as principais variáveis de negócios que a análise precisa prever. Essas variáveis são chamados de metas modelo e as métricas associadas a elas são usadas para determinar o sucesso do projeto. Por exemplo, uma meta pode ser uma previsão de vendas ou a probabilidade de um pedido ser fraudulento.

  2. Para definir as metas do projeto, faça e refine perguntas inteligentes que sejam relevantes, específicas e inequívocas. A ciência de dados é o processo de usar nomes e números para responder a essas perguntas. A ciência de dados e o aprendizado de máquina são normalmente usados para responder a cinco tipos de perguntas:

    • Quanto custa ou quantos? (regressão)
    • Qual categoria? (classificação)
    • Qual grupo? (clustering)
    • Isso é incomum? (detecção de anomalias)
    • Qual opção deve ser escolhida? (recomendação)

    Determine quais dessas perguntas fazer e como respondê-las pode ajudar a atingir seus objetivos de negócios.

  3. Para definir a equipe do projeto, especifique as funções e responsabilidades dos membros. Desenvolva um plano de marcos de alto nível que pode ser usado para iteração, conforme mais informações são descobertas.

  4. É necessário definir as métricas de sucesso. Por exemplo, talvez você queira atender a uma previsão de rotatividade de clientes com uma taxa de precisão de x por cento até o fim de um projeto de três meses. Com esses dados, você pode oferecer promoções aos clientes para reduzir a variação. As métricas devem ser SMART (INTELIGENTES):

    • ESpecíficas
    • Mensuráveis
    • Alcançáveis
    • Relevantes
    • Com limite de Tempo

Identificar as fontes de dados

Identifique as fontes de dados que contêm exemplos conhecidos de respostas para as perguntas. Procure os seguintes dados:

  • Dados que são relevantes à pergunta. Você tem medidas da meta e os recursos relacionados a ela?
  • Dados que são uma medida precisa de nossa meta modelo e os recursos de interesse.

Por exemplo, um sistema existente pode não ter os dados necessários para resolver um problema e atingir uma meta de projeto. Nesse caso, pode ser necessário buscar fontes de dados externas ou atualizar os sistemas para coletar novos dados.

Integração com o MLflow

Para o estágio de reconhecimento empresarial, sua equipe não usa as ferramentas do MLflow, mas pode se beneficiar indiretamente dos recursos de documentação e rastreamento de experimentos do MLflow. Esses recursos podem fornecer insights e contexto histórico para ajudar a alinhar o projeto com os objetivos de negócios.

Artifacts

Nesta etapa, sua equipe entrega:

  • Um documento de estatuto. O estatuto é um documento vivo. O documento é atualizado durante o projeto conforme novas descobertas são feitas e os requisitos de negócios mudam. A chave é iterar neste documento. Adicione mais detalhes à medida que avança no processo de descoberta. Informar o cliente e outros stakeholders sobre as mudanças e os motivos para elas.

  • Fontes de dados. Você pode usar o Azure Machine Learning para lidar com o gerenciamento da fonte de dados. Recomendamos esse serviço do Azure para projetos ativos e particularmente grandes porque ele se integra ao MLflow.

  • Dicionários de dados. Este documento fornece descrições dos dados fornecidos pelo cliente. Essas descrições incluem informações sobre o esquema (tipos de dados, informações sobre regras de validação, se houver) e os diagramas de relação de entidade, se disponíveis. Sua equipe deve documentar algumas ou todas essas informações.

Literatura revisada por pares

Os pesquisadores publicam estudos sobre o TDSP em literatura revisada por pares. As citações fornecem uma oportunidade para investigar outras aplicações ou ideias semelhantes ao TDSP, incluindo o estágio do ciclo de vida de reconhecimento empresarial.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Estes artigos descrevem os outros estágios do ciclo de vida do TDSP: