Exploração
Importante
A partir de 20 de setembro de 2023, não será mais possível criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado no dia 1º de outubro de 2026.
Com a exploração, o Personalizador é capaz de fornecer bons resultados continuamente, mesmo que haja alterações no comportamento do usuário.
Quando o Personalizador recebe uma chamada de classificação, ele retorna um RewardActionID que:
- Usa a relevância conhecida para fazer a correspondência com o comportamento mais provável do usuário com base no modelo de machine learning atual.
- Usa a exploration, que não faz a correspondência com a ação que tem a probabilidade mais alta na classificação.
Atualmente, o Personalizador usa um algoritmo chamado epsilon greedy para explorar.
Como escolher a configuração de exploração
Configure a porcentagem de tráfego a ser usada para a exploração na página Configuração do portal do Azure no Personalizador. Essa configuração determina a porcentagem de chamadas de classificação que realizam exploração.
O personalizador determina se deve explorar ou usar a ação mais provável do modelo em cada chamada de classificação. Isso é diferente do comportamento de algumas estruturas A/B que bloqueiam um tratamento em IDs de usuário específicas.
Melhores práticas para escolher a configuração de exploração
Escolher uma configuração de exploração é uma decisão de negócios sobre a proporção de interações do usuário com a qual explorar, a fim de melhorar o modelo.
Uma configuração zero anula muitos dos benefícios do Personalizador. Com essa configuração, o Personalizador não usa nenhuma interação do usuário para descobrir as melhores interações. Isso leva à estagnação do modelo, descompasso e, por fim, menor desempenho.
Uma configuração muito alta anula os benefícios de aprendizado do comportamento do usuário. Defini-la como 100% implica uma aleatoriedade constante, e qualquer comportamento aprendido com os usuários não influenciaria o resultado.
É importante não alterar o comportamento do aplicativo com base no fato de o Personalizador estar explorando ou usando a melhor ação aprendida. Isso levaria a desvios de aprendizado que acabariam diminuindo o desempenho potencial.