Implantar e executar modelos MLflow em trabalhos do Spark

Artigo
12/20/2024

Neste artigo, saiba como implantar e executar seu modelo MLflow em trabalhos do Spark para executar inferência sobre grandes quantidades de dados ou como parte de trabalhos de disputa de dados.

Sobre este exemplo

Este exemplo mostra como você pode implantar um modelo MLflow registrado no Azure Machine Learning para trabalhos do Spark em execução em clusters gerenciados do Spark (visualização), Azure Databricks ou Azure Synapse Analytics, para executar inferência sobre grandes quantidades de dados.

O modelo é baseado no UCI Heart Disease Data set. O banco de dados contém 76 atributos, mas estamos usando um subconjunto de 14 deles. O modelo tenta prever a presença de doença cardíaca em um paciente. É inteiro valorizado de 0 (sem presença) a 1 (presença). Ele foi treinado usando um XGBBoost classificador e todo o pré-processamento necessário foi empacotado como um scikit-learn pipeline, tornando este modelo um pipeline de ponta a ponta que vai de dados brutos a previsões.

As informações neste artigo são baseadas em exemplos de código contidos no repositório azureml-examples . Para executar os comandos localmente sem ter que copiar/colar arquivos, clone o repositório e, em seguida, altere os diretórios para sdk/using-mlflow/deploy.

git clone https://github.com/Azure/azureml-examples --depth 1
cd sdk/python/using-mlflow/deploy

Pré-requisitos

Antes de seguir as etapas neste artigo, verifique se você tem os seguintes pré-requisitos:

Instale o pacote MLflow SDK mlflow e o plug-in do Azure Machine Learning azureml-mlflow para MLflow da seguinte maneira:
```
pip install mlflow azureml-mlflow
```
Gorjeta

Você pode usar o mlflow-skinny pacote, que é um pacote MLflow leve sem dependências de armazenamento SQL, servidor, interface do usuário ou ciência de dados. Este pacote é recomendado para usuários que precisam principalmente dos recursos de rastreamento e registro em log do MLflow sem importar o conjunto completo de recursos, incluindo implantações.
Crie um espaço de trabalho do Azure Machine Learning. Para criar um espaço de trabalho, consulte Criar recursos necessários para começar. Revise as permissões de acesso necessárias para executar suas operações MLflow em seu espaço de trabalho.
Para fazer o acompanhamento remoto ou acompanhar experiências em execução fora do Azure Machine Learning, configure o MLflow para apontar para o URI de acompanhamento da sua área de trabalho do Azure Machine Learning. Para obter mais informações sobre como conectar o MLflow ao seu espaço de trabalho, consulte Configurar o MLflow para o Azure Machine Learning.

Você deve ter um modelo MLflow registrado em seu espaço de trabalho. Particularmente, este exemplo registrará um modelo treinado para o conjunto de dados Diabetes.

Ligar à sua área de trabalho

Primeiro, vamos nos conectar ao espaço de trabalho do Azure Machine Learning onde seu modelo está registrado.

Computação do Azure Machine Learning
Computação remota

O rastreamento já está configurado para você. Suas credenciais padrão também serão usadas ao trabalhar com MLflow.

Configurar URI de rastreamento

Obtenha o URI de acompanhamento para seu espaço de trabalho:
APLICA-SE A: Azure CLI ml extension v2 (atual)
1. Entre e configure seu espaço de trabalho:
```
az account set --subscription <subscription-ID>
az configure --defaults workspace=<workspace-name> group=<resource-group-name> location=<location> 
```
2. Obtenha o URI de rastreamento usando o az ml workspace comando:
```
az ml workspace show --query mlflow_tracking_uri
```
APLICA-SE A: Python SDK azure-ai-ml v2 (atual)

Você pode usar o SDK do Azure Machine Learning v2 para Python para obter o URI de acompanhamento do Azure Machine Learning MLflow. Verifique se a azure-ai-ml biblioteca está instalada em sua instância de computação. Em seguida, use o código a seguir para obter o URI de rastreamento MLFLow exclusivo associado ao seu espaço de trabalho.
1. Use uma instância de para entrar em seu espaço de MLClient trabalho. Existem duas opções para iniciar sessão:
  - A maneira mais fácil é usar o arquivo de configuração do espaço de trabalho:
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential ml_client = MLClient.from_config(credential=DefaultAzureCredential())
    
    Gorjeta
    
    Você pode baixar o arquivo de configuração do espaço de trabalho seguindo as seguintes etapas:
    
    Vá para o estúdio do Azure Machine Learning.
    
    No canto superior direito, selecione o nome do seu espaço de trabalho.
    
    Na janela Diretório + Assinatura + Espaço de trabalho, selecione Baixar arquivo de configuração.
    
    Salve o arquivo config.json no diretório em que você está trabalhando.
  - Como alternativa, você pode usar sua ID de assinatura, nome do grupo de recursos e nome do espaço de trabalho para entrar:
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential # Enter information about your Azure Machine Learning workspace. subscription_id = "<subscription-ID>" resource_group = "<resource-group-name>" workspace_name = "<workspace-name>" ml_client = MLClient(credential=DefaultAzureCredential(), subscription_id=subscription_id, resource_group_name=resource_group, workspace_name=workspace_name)
    
    Importante
    
    O DefaultAzureCredential método tenta extrair credenciais do contexto disponível. Mas você pode querer especificar credenciais de uma maneira diferente, por exemplo, usando o navegador da Web de forma interativa. Nestes casos, você pode usar InteractiveBrowserCredential ou qualquer outro método disponível no azure.identity pacote.
2. Obtenha o URI de acompanhamento do Azure Machine Learning:
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
Use o estúdio do Azure Machine Learning para obter o URI de acompanhamento:
1. Abra o estúdio do Azure Machine Learning e use suas credenciais para entrar.
2. No canto superior direito, selecione o nome do seu espaço de trabalho.
3. Na janela Diretório + Assinatura + Espaço de Trabalho, selecione Exibir todas as propriedades no Portal do Azure. A página de recursos do seu espaço de trabalho é aberta no portal do Azure.
4. Em Essentials, copie o valor do URI de rastreamento MLflow.
Você pode construir o URI de acompanhamento do Azure Machine Learning manualmente. Você precisa da ID da assinatura, da região em que o espaço de trabalho está implantado, do nome do grupo de recursos e do nome do espaço de trabalho. Para obter o URI, insira esses valores no código a seguir:

Aviso

Se você usar um espaço de trabalho habilitado para link privado, o ponto de extremidade MLflow também usará um link privado para se comunicar com o Azure Machine Learning. Como resultado, o URI de rastreamento usa um formato diferente do deste artigo. Nesse caso, você precisa usar o SDK do Azure Machine Learning para Python ou a CLI do Azure Machine Learning v2 para obter o URI de rastreamento.
```
region = "<region>"
subscription_id = "<subscription-ID>"
resource_group = "<resource-group-name>"
workspace_name = "<workspace-name>"

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
Configure o URI de rastreamento:
- MLflow SDK
- Variáveis de ambiente
Use o set_tracking_uri() método para definir o URI de rastreamento MLflow para o URI de rastreamento do seu espaço de trabalho.
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
Em sua instância de computação, use o código a seguir para definir a MLFLOW_TRACKING_URI variável de ambiente MLflow para o URI de controle do seu espaço de trabalho. Essa atribuição faz com que todas as interações com o MLflow nessa instância de computação apontem para o Aprendizado de Máquina do Azure por padrão. Para obter mais informações, consulte Funções de registro.
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
Gorjeta

Alguns cenários envolvem trabalhar em um ambiente compartilhado, como um cluster do Azure Databricks ou um cluster do Azure Synapse Analytics. Nesses casos, é útil definir a MLFLOW_TRACKING_URI variável de ambiente no nível do cluster em vez de para cada sessão. A definição da variável no nível do cluster configura automaticamente o URI de rastreamento do MLflow para apontar para o Aprendizado de Máquina do Azure para todas as sessões no cluster.

Configurar a autenticação

Depois que o rastreamento estiver configurado, você também precisará configurar como a autenticação precisa acontecer com o espaço de trabalho associado. Por padrão, o plug-in do Azure Machine Learning para MLflow executará autenticação interativa abrindo o navegador padrão para solicitar credenciais. Consulte Configurar o MLflow para o Azure Machine Learning: Configurar a autenticação para formas adicionais de configurar a autenticação para MLflow nos espaços de trabalho do Azure Machine Learning.

Para trabalhos interativos em que há um usuário conectado à sessão, você pode confiar na autenticação interativa. Não são necessárias mais ações.

Aviso

A autenticação interativa do navegador bloqueia a execução de código quando solicita credenciais. Essa abordagem não é adequada para autenticação em ambientes autônomos, como trabalhos de treinamento. Recomendamos que você configure um modo de autenticação diferente nesses ambientes.

Para cenários que exigem execução autônoma, você precisa configurar uma entidade de serviço para se comunicar com o Azure Machine Learning. Para obter informações sobre como criar uma entidade de serviço, consulte Configurar uma entidade de serviço.

Use a ID do locatário, a ID do cliente e o segredo do cliente da entidade de serviço no código a seguir:

MLflow SDK
Variáveis de ambiente

import os

os.environ["AZURE_TENANT_ID"] = "<Azure-tenant-ID>"
os.environ["AZURE_CLIENT_ID"] = "<Azure-client-ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<Azure-client-secret>"

export AZURE_TENANT_ID="<Azure-tenant-ID>"
export AZURE_CLIENT_ID="<Azure-client-ID>"
export AZURE_CLIENT_SECRET="<Azure-client-secret>"

Gorjeta

Quando você trabalha em ambientes compartilhados, recomendamos que configure essas variáveis de ambiente no nível de computação. Como prática recomendada, gerencie-os como segredos em uma instância do Azure Key Vault.

Por exemplo, em uma configuração de cluster do Azure Databricks, você pode usar segredos em variáveis de ambiente da seguinte maneira: AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}. Para obter mais informações sobre como implementar essa abordagem no Azure Databricks, consulte Referenciar um segredo em uma variável de ambiente ou consulte a documentação da sua plataforma.

Registo do modelo

Precisamos de um modelo registrado no registro do Azure Machine Learning para executar a inferência. Nesse caso, já temos uma cópia local do modelo no repositório, então só precisamos publicar o modelo no registro no espaço de trabalho. Você pode pular esta etapa se o modelo que você está tentando implantar já estiver registrado.

model_name = 'heart-classifier'
model_local_path = "model"

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"file://{model_local_path}"
)
version = registered_model.version

Como alternativa, se o seu modelo foi registrado dentro de uma corrida, você pode registrá-lo diretamente.

Gorjeta

Para registrar o modelo, você precisará saber o local onde o modelo foi armazenado. Se você estiver usando autolog o recurso MLflow, o caminho dependerá do tipo e da estrutura do modelo que está sendo usado. Recomendamos verificar a saída de trabalhos para identificar qual é o nome dessa pasta. Você pode procurar a pasta que contém um arquivo chamado MLModel. Se você estiver registrando seus modelos manualmente usando log_model, então o caminho é o argumento que você passa para esse método. Por exemplo, se você registrar o modelo usando mlflow.sklearn.log_model(my_model, "classifier"), o caminho onde o modelo está armazenado será classifier.

model_name = 'heart-classifier'

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"runs://{RUN_ID}/{MODEL_PATH}"
)
version = registered_model.version

Nota

O caminho MODEL_PATH é o local onde o modelo foi armazenado na execução.

Obter dados de entrada para pontuar

Precisaremos de alguns dados de entrada para executar ou trabalhar. Neste exemplo, baixaremos dados de exemplo da Internet e os colocaremos em um armazenamento compartilhado usado pelo cluster do Spark.

import urllib

urllib.request.urlretrieve("https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv", "/tmp/data")

Mova os dados para uma conta de armazenamento montada disponível para todo o cluster.

dbutils.fs.mv("file:/tmp/data", "dbfs:/")

Importante

O código anterior usa dbutils, que é uma ferramenta disponível no cluster do Azure Databricks. Use a ferramenta apropriada dependendo da plataforma que você está usando.

Os dados de entrada são então colocados na seguinte pasta:

input_data_path = "dbfs:/data"

Executar o modelo em clusters do Spark

A seção a seguir explica como executar modelos MLflow registrados no Azure Machine Learning em trabalhos do Spark.

Verifique se as seguintes bibliotecas estão instaladas no cluster:

- mlflow<3,>=2.1
- cloudpickle==2.2.0
- scikit-learn==1.2.0
- xgboost==1.7.2

Usaremos um bloco de anotações para demonstrar como criar uma rotina de pontuação com um modelo MLflow registrado no Azure Machine Learning. Crie um bloco de anotações e use o PySpark como idioma padrão.

Importe os namespaces necessários:

import mlflow
import pyspark.sql.functions as f

Configure o URI do modelo. O URI a seguir traz um modelo nomeado heart-classifier em sua versão mais recente.
```
model_uri = "models:/heart-classifier/latest"
```
Carregue o modelo como uma função UDF. Uma função definida pelo usuário (UDF) é uma função definida por um usuário, permitindo que a lógica personalizada seja reutilizada no ambiente do usuário.
```
predict_function = mlflow.pyfunc.spark_udf(spark, model_uri, result_type='double') 
```
Gorjeta

Use o argumento result_type para controlar o tipo retornado pela predict() função.
Leia os dados que deseja pontuar:
```
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data_path).drop("target")
```
No nosso caso, os dados de entrada estão no CSV formato e colocados na pasta dbfs:/data/. Também estamos descartando a coluna target , pois esse conjunto de dados contém a variável de destino a ser prevista. Em cenários de produção, seus dados não terão essa coluna.
Execute a função predict_function e coloque as previsões em uma nova coluna. Neste caso, estamos colocando as previsões na coluna predictions.
```
df.withColumn("predictions", score_function(*df.columns))
```
Gorjeta

O predict_function recebe como argumentos as colunas necessárias. No nosso caso, todas as colunas do quadro de dados são esperadas pelo modelo e, portanto, df.columns são usadas. Se o seu modelo requer um subconjunto das colunas, você pode introduzi-las manualmente. Se o modelo tiver uma assinatura, os tipos precisarão ser compatíveis entre entradas e tipos esperados.

Você pode escrever suas previsões de volta ao armazenamento:

scored_data_path = "dbfs:/scored-data"
scored_data.to_csv(scored_data_path)

Executar o modelo em um trabalho autônomo do Spark no Azure Machine Learning

O Azure Machine Learning dá suporte à criação de um trabalho autônomo do Spark e à criação de um componente do Spark reutilizável que pode ser usado nos pipelines do Azure Machine Learning. Neste exemplo, implantaremos um trabalho de pontuação que é executado no trabalho autônomo do Spark do Azure Machine Learning e executa um modelo MLflow para executar inferência.

Nota

Para saber mais sobre trabalhos do Spark no Azure Machine Learning, consulte Enviar trabalhos do Spark no Azure Machine Learning (visualização).

Um trabalho do Spark requer um script Python que usa argumentos. Crie um script de pontuação:

score.py
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--model")
parser.add_argument("--input_data")
parser.add_argument("--scored_data")

args = parser.parse_args()
print(args.model)
print(args.input_data)

# Load the model as an UDF function
predict_function = mlflow.pyfunc.spark_udf(spark, args.model, env_manager="conda")

# Read the data you want to score
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data).drop("target")

# Run the function `predict_function` and place the predictions on a new column
scored_data = df.withColumn("predictions", score_function(*df.columns))

# Save the predictions
scored_data.to_csv(args.scored_data)
```
O script acima usa três argumentos --model--input_data e --scored_data. Os dois primeiros são entradas e representam o modelo que queremos executar e os dados de entrada, o último é uma saída e é a pasta de saída onde as previsões serão colocadas.

Gorjeta

Instalação de pacotes Python: O script de pontuação anterior carrega o modelo MLflow em uma função UDF, mas indica o parâmetro env_manager="conda". Quando esse parâmetro é definido, o MLflow restaurará os pacotes necessários conforme especificado na definição do modelo em um ambiente isolado onde apenas a função UDF é executada. Para obter mais detalhes, consulte a mlflow.pyfunc.spark_udf documentação.

Crie uma definição de trabalho:

mlflow-score-spark-job.yml

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./src
entry:
  file: score.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  model:
    type: mlflow_model
    path: azureml:heart-classifier@latest
  input_data:
    type: uri_file
    path: https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv
    mode: direct

outputs:
  scored_data:
    type: uri_folder

args: >-
  --model ${{inputs.model}}
  --input_data ${{inputs.input_data}}
  --scored_data ${{outputs.scored_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.2"

Gorjeta

Para usar um pool Synapse Spark anexado, defina compute a propriedade no arquivo de especificação YAML de exemplo mostrado acima em vez da resources propriedade.

Os arquivos YAML mostrados az ml job create acima podem ser usados no comando, com o --file parâmetro, para criar um trabalho Spark autônomo, conforme mostrado:
```
az ml job create -f mlflow-score-spark-job.yml
```

Partilhar via

Implantar e executar modelos MLflow em trabalhos do Spark

Sobre este exemplo

Pré-requisitos

Ligar à sua área de trabalho

Registo do modelo

Obter dados de entrada para pontuar

Executar o modelo em clusters do Spark

Executar o modelo em um trabalho autônomo do Spark no Azure Machine Learning

Próximos passos

Comentários

Recursos adicionais