O estágio de entendimento empresarial do ciclo de vida do Processo de Ciência de Dados da Equipe
Este tópico descreve as metas, as tarefas e as entregas associadas ao estágio de entendimento de negócios do TDSP (Processo de Ciência de Dados da Equipe). Esse processo fornece um ciclo de vida recomendado que a sua equipe pode usar para estruturar seus projetos de ciência de dados. O ciclo de vida descreve os principais estágios que sua equipe executa, geralmente de forma iterativa:
- Noções básicas sobre negócios
- Aquisição de dados e entendimento
- Modelagem
- Implantação
- Aceitação do cliente
Esta é uma representação visual do ciclo de vida do TDSP:
Metas
Os objetivos da etapa de reconhecimento empresarial são:
Especificar as variáveis-chave que servem como metas modelo. E especificar as métricas das metas, que determinam o sucesso do projeto.
Identifique as fontes de dados relevantes, às quais a empresa tem acesso ou precisa obtê-lo.
Como concluir as tarefas
O estágio de reconhecimento empresarial tem duas tarefas principais:
Definir os objetivos: trabalhe com o cliente e outros stakeholders para compreender e identificar problemas de negócios. Formule perguntas que definem as metas de negócios e que as técnicas de ciência de dados podem ter como meta.
Identificar as fontes de dados: encontre os dados relevantes que ajudam a responder as perguntas que definem os objetivos do projeto.
Definir os objetivos
Um objetivo central deste estágio é identificar as principais variáveis de negócios que a análise precisa prever. Essas variáveis são chamados de metas modelo e as métricas associadas a elas são usadas para determinar o sucesso do projeto. Por exemplo, uma meta pode ser uma previsão de vendas ou a probabilidade de um pedido ser fraudulento.
Para definir as metas do projeto, faça e refine perguntas inteligentes que sejam relevantes, específicas e inequívocas. A ciência de dados é o processo de usar nomes e números para responder a essas perguntas. A ciência de dados e o aprendizado de máquina são normalmente usados para responder a cinco tipos de perguntas:
- Quanto custa ou quantos? (regressão)
- Qual categoria? (classificação)
- Qual grupo? (clustering)
- Isso é incomum? (detecção de anomalias)
- Qual opção deve ser escolhida? (recomendação)
Determine quais dessas perguntas fazer e como respondê-las pode ajudar a atingir seus objetivos de negócios.
Para definir a equipe do projeto, especifique as funções e responsabilidades dos membros. Desenvolva um plano de marcos de alto nível que pode ser usado para iteração, conforme mais informações são descobertas.
É necessário definir as métricas de sucesso. Por exemplo, talvez você queira atender a uma previsão de rotatividade de clientes com uma taxa de precisão de x por cento até o fim de um projeto de três meses. Com esses dados, você pode oferecer promoções aos clientes para reduzir a variação. As métricas devem ser SMART (INTELIGENTES):
- ESpecíficas
- Mensuráveis
- Alcançáveis
- Relevantes
- Com limite de Tempo
Identificar as fontes de dados
Identifique as fontes de dados que contêm exemplos conhecidos de respostas para as perguntas. Procure os seguintes dados:
- Dados que são relevantes à pergunta. Você tem medidas da meta e os recursos relacionados a ela?
- Dados que são uma medida precisa de nossa meta modelo e os recursos de interesse.
Por exemplo, um sistema existente pode não ter os dados necessários para resolver um problema e atingir uma meta de projeto. Nesse caso, pode ser necessário buscar fontes de dados externas ou atualizar os sistemas para coletar novos dados.
Integração com o MLflow
Para o estágio de reconhecimento empresarial, sua equipe não usa as ferramentas do MLflow, mas pode se beneficiar indiretamente dos recursos de documentação e rastreamento de experimentos do MLflow. Esses recursos podem fornecer insights e contexto histórico para ajudar a alinhar o projeto com os objetivos de negócios.
Artifacts
Nesta etapa, sua equipe entrega:
Um documento de estatuto. O estatuto é um documento vivo. O documento é atualizado durante o projeto conforme novas descobertas são feitas e os requisitos de negócios mudam. A chave é iterar neste documento. Adicione mais detalhes à medida que avança no processo de descoberta. Informar o cliente e outros stakeholders sobre as mudanças e os motivos para elas.
Fontes de dados. Você pode usar o Azure Machine Learning para lidar com o gerenciamento da fonte de dados. Recomendamos esse serviço do Azure para projetos ativos e particularmente grandes porque ele se integra ao MLflow.
Dicionários de dados. Este documento fornece descrições dos dados fornecidos pelo cliente. Essas descrições incluem informações sobre o esquema (tipos de dados, informações sobre regras de validação, se houver) e os diagramas de relação de entidade, se disponíveis. Sua equipe deve documentar algumas ou todas essas informações.
Literatura revisada por pares
Os pesquisadores publicam estudos sobre o TDSP em literatura revisada por pares. As citações fornecem uma oportunidade para investigar outras aplicações ou ideias semelhantes ao TDSP, incluindo o estágio do ciclo de vida de reconhecimento empresarial.
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.
Autor principal:
- Mark Tabladillo | Arquiteto de soluções de nuvem sênior
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.
Recursos relacionados
Estes artigos descrevem os outros estágios do ciclo de vida do TDSP: