Прогрессивное развертывание моделей MLflow в сетевых конечных точках

Статья
09/02/2024

В этой статье вы узнаете, как постепенно обновлять и развертывать модели MLflow в сетевых конечных точках без нарушения работы службы. Вы используете сине-зеленое развертывание, также называемое стратегией безопасного развертывания, чтобы ввести новую версию веб-службы в рабочую среду. Эта стратегия позволит развернуть новую версию веб-службы в небольшое подмножество пользователей или запросов, прежде чем полностью развернуть ее.

Сведения об этом примере

Сетевые конечные точки имеют концепцию конечной точки и развертывания. Конечная точка представляет API, который клиенты используют для использования модели, а развертывание указывает на конкретную реализацию этого API. Это различие позволяет пользователям отделить API от реализации и изменить базовую реализацию, не влияя на потребителя. В этом примере используются такие понятия для обновления развернутой модели в конечных точках без нарушения работы службы.

Развернутая модель основана на наборе данных болезни сердца UCI. База данных содержит 76 атрибутов, но мы используем подмножество из 14 из них. Модель пытается предсказать наличие сердечно-сосудистых заболеваний у пациента. Целочисленное значение от 0 (нет присутствия) до 1 (присутствие). Он был обучен с помощью XGBBoost классификатора, и все необходимые предварительной обработки были упакованы в виде scikit-learn конвейера, что делает эту модель сквозным конвейером, который переходит от необработанных данных к прогнозам.

Сведения в этой статье основаны на примерах кода, имеющихся в репозитории azureml-examples. Для локального выполнения команд без необходимости копирования и вставки файлов клонируйте репозиторий, а затем измените каталоги sdk/using-mlflow/deployна .

Следуйте инструкциям в Jupyter Notebooks

Вы можете следовать этому примеру в следующих записных книжках. В клонированного репозитория откройте записную книжку: mlflow_sdk_online_endpoints_progresive.ipynb.

Необходимые компоненты

Перед выполнением действий, описанных в этой статье, убедитесь, что выполнены следующие необходимые условия:

Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу. Попробуйте бесплатную или платную версию Машинного обучения Azure.
Управление доступом на основе ролей Azure (Azure RBAC) используется для предоставления доступа к операциям в Машинном обучении Azure. Чтобы выполнить действия, описанные в этой статье, учетная запись пользователя должна быть назначена роль владельца или участника для рабочей области Машинное обучение Azure или настраиваемой роли, позволяющей Microsoft.MachineLearningServices/workspaces/onlineEndpoints/*. Дополнительные сведения см. в статье Управление доступом к рабочей области Машинного обучения Azure.

Кроме того, вам потребуется:

Установите Azure CLI и расширение ml в Azure CLI. Дополнительные сведения см. в разделе Установка, настройка и использование CLI (версия 2).

Установите пакет mlflow SDK Mlflow и подключаемый модуль Машинное обучение Azure для MLflowazureml-mlflow.
```
pip install mlflow azureml-mlflow
```
Если вы не работаете в Машинное обучение Azure вычислений, настройте URI отслеживания MLflow или URI реестра MLflow, чтобы указать рабочую область, над которую вы работаете. Узнайте, как настроить MLflow для Машинное обучение Azure.

Подключение к рабочей области

Во-первых, давайте подключимся к Машинное обучение Azure рабочей области, над которой мы будем работать.

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Рабочая область — это ресурс верхнего уровня для Машинного обучения Azure, который обеспечивает централизованное расположение для работы со всеми артефактами, созданными в Машинном обучении Azure. В этом разделе мы подключимся к рабочей области, в которой будем выполнять задачи развертывания.

Импортируйте необходимые библиотеки:

from azure.ai.ml import MLClient, Input
from azure.ai.ml.entities import ManagedOnlineEndpoint, ManagedOnlineDeployment, Model
from azure.ai.ml.constants import AssetTypes
from azure.identity import DefaultAzureCredential

Настройте сведения о рабочей области и получите дескриптор для рабочей области:

subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)

Импорт необходимых библиотек

import json
import mlflow
import requests
import pandas as pd
from mlflow.deployments import get_deploy_client

Настройте клиент MLflow и клиент развертывания:

mlflow_client = mlflow.MLflowClient()
deployment_client = get_deploy_client(mlflow.get_tracking_uri())

Регистрация модели в реестре

Убедитесь, что ваша модель зарегистрирована в реестре Машинного обучения Azure. Развертывание незарегистрированных моделей в Машинном обучении Azure не поддерживается. Вы можете зарегистрировать новую модель с помощью пакета SDK MLflow:

MODEL_NAME='heart-classifier'
az ml model create --name $MODEL_NAME --type "mlflow_model" --path "model"

model_name = 'heart-classifier'
model_local_path = "model"

model = ml_client.models.create_or_update(
     Model(name=model_name, path=model_local_path, type=AssetTypes.MLFLOW_MODEL)
)

model_name = 'heart-classifier'
model_local_path = "model"

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"file://{model_local_path}"
)
version = registered_model.version

Создание сетевой конечной точки

Сетевые конечные точки — это конечные точки, которые используются для вывода онлайн (в режиме реального времени). Подключенные конечные точки содержат развертывания, готовые к получению данных от клиентов, и могут отправлять ответы обратно в реальном времени.

Мы будем использовать эту функцию, развернув несколько версий одной модели в одной конечной точке. Однако новое развертывание получит 0% трафика при перепроигрывке. После того как мы уверены, что новая модель работает правильно, мы будем постепенно перемещать трафик из одного развертывания в другое.

Для конечных точек требуется имя, которое должно быть уникальным в одном регионе. Давайте создадим его, который не существует:

ENDPOINT_SUFIX=$(cat /dev/urandom | tr -dc 'a-zA-Z0-9' | fold -w ${1:-5} | head -n 1)
ENDPOINT_NAME="heart-classifier-$ENDPOINT_SUFIX"

import random
import string

# Creating a unique endpoint name by including a random suffix
allowed_chars = string.ascii_lowercase + string.digits
endpoint_suffix = "".join(random.choice(allowed_chars) for x in range(5))
endpoint_name = "heart-classifier-" + endpoint_suffix

print(f"Endpoint name: {endpoint_name}")

import random
import string

# Creating a unique endpoint name by including a random suffix
allowed_chars = string.ascii_lowercase + string.digits
endpoint_suffix = "".join(random.choice(allowed_chars) for x in range(5))
endpoint_name = "heart-classifier-" + endpoint_suffix

print(f"Endpoint name: {endpoint_name}")

Настройка конечной точки

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: heart-classifier-edp
auth_mode: key

endpoint = ManagedOnlineEndpoint(
    name=endpoint_name,
    description="An endpoint to serve predictions of the UCI heart disease problem",
    auth_mode="key",
)

Свойства этой конечной точки можно настроить с помощью файла конфигурации. Мы настраиваем режим проверки подлинности конечной точки на "ключ" в следующем примере:

endpoint_config = {
    "auth_mode": "key",
    "identity": {
        "type": "system_assigned"
    }
}

Давайте запишите эту конфигурацию в JSON файл:

endpoint_config_path = "endpoint_config.json"
with open(endpoint_config_path, "w") as outfile:
    outfile.write(json.dumps(endpoint_config))

Создание конечной точки:

az ml online-endpoint create -n $ENDPOINT_NAME -f endpoint.yml

ml_client.online_endpoints.begin_create_or_update(endpoint).result()

endpoint = deployment_client.create_endpoint(
    name=endpoint_name,
    config={"endpoint-config-file": endpoint_config_path},
)

Получение секрета проверки подлинности для конечной точки.
```
ENDPOINT_SECRET_KEY=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME | jq -r ".accessToken")
```
```
endpoint_secret_key = ml_client.online_endpoints.list_keys(
    name=endpoint_name
).access_token
```
Эта функция недоступна в пакете SDK MLflow. Перейдите к Студия машинного обучения Azure, перейдите к конечной точке и получите секретный ключ.

Создание синего развертывания

До сих пор конечная точка пуста. На нем нет развертываний. Давайте создадим первую, развернув ту же модель, над которыми мы работали раньше. Мы будем называть это развертывание "по умолчанию", представляющее наше "синее развертывание".

Настройка развертывания
blue-deployment.yml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: default
endpoint_name: heart-classifier-edp
model: azureml:heart-classifier@latest
instance_type: Standard_DS2_v2
instance_count: 1
```
```
blue_deployment_name = "default"
```
Настройте требования к оборудованию развертывания:
```
blue_deployment = ManagedOnlineDeployment(
    name=blue_deployment_name,
    endpoint_name=endpoint_name,
    model=model,
    instance_type="Standard_DS2_v2",
    instance_count=1,
)
```
Если у конечной точки нет подключения исходящего трафика, используйте упаковку модели (предварительная версия), включив аргумент with_package=True:
```
blue_deployment = ManagedOnlineDeployment(
    name=blue_deployment_name,
    endpoint_name=endpoint_name,
    model=model,
    instance_type="Standard_DS2_v2",
    instance_count=1,
    with_package=True,
)
```
```
blue_deployment_name = "default"
```
Чтобы настроить требования к оборудованию развертывания, необходимо создать JSON-файл с требуемой конфигурацией:
```
deploy_config = {
    "instance_type": "Standard_DS2_v2",
    "instance_count": 1,
}
```
Примечание.

Полную спецификацию этой конфигурации можно найти в разделе Схема управляемого сетевого развертывания (версия 2).

Запись конфигурации в файл:
```
deployment_config_path = "deployment_config.json"
with open(deployment_config_path, "w") as outfile:
    outfile.write(json.dumps(deploy_config))
```
Создание развертывания
```
az ml online-deployment create --endpoint-name $ENDPOINT_NAME -f blue-deployment.yml --all-traffic
```
Если у конечной точки нет подключения к исходящего трафика, используйте упаковку модели (предварительную версию), включив флаг --with-package:
```
az ml online-deployment create --with-package --endpoint-name $ENDPOINT_NAME -f blue-deployment.yml --all-traffic
```
Совет

Мы задали флаг --all-traffic в команде create, которая назначит весь трафик новому развертыванию.
```
ml_client.online_deployments.begin_create_or_update(blue_deployment).result()
```
```
blue_deployment = deployment_client.create_deployment(
    name=blue_deployment_name,
    endpoint=endpoint_name,
    model_uri=f"models:/{model_name}/{version}",
    config={"deploy-config-file": deployment_config_path},
)    
```
Назначение всего трафика развертыванию

До сих пор конечная точка имеет одно развертывание, но ни один из его трафика не назначается. Давайте назначим его.
Этот шаг не требуется в Azure CLI, так как мы использовали --all-traffic во время создания.
```
endpoint.traffic = { blue_deployment_name: 100 }
```
```
traffic_config = {"traffic": {blue_deployment_name: 100}}
```
Запись конфигурации в файл:
```
traffic_config_path = "traffic_config.json"
with open(traffic_config_path, "w") as outfile:
    outfile.write(json.dumps(traffic_config))
```
Обновите конфигурацию конечной точки:
Этот шаг не требуется в Azure CLI, так как мы использовали --all-traffic во время создания.
```
ml_client.begin_create_or_update(endpoint).result()
```
```
deployment_client.update_endpoint(
    endpoint=endpoint_name,
    config={"endpoint-config-file": traffic_config_path},
)
```
Создание примера входных данных для тестирования развертывания
sample.yml
```
{
    "input_data": {
        "columns": [
            "age",
            "sex",
            "cp",
            "trestbps",
            "chol",
            "fbs",
            "restecg",
            "thalach",
            "exang",
            "oldpeak",
            "slope",
            "ca",
            "thal"
        ],
        "data": [
            [ 48, 0, 3, 130, 275, 0, 0, 139, 0, 0.2, 1, 0, "normal" ]
        ]
    }
}
```
В следующих примерах кода 5 наблюдений из обучающего набора данных удаляется target столбец (по мере прогнозирования модели) и создается запрос в файле sample.json , который можно использовать с развертыванием модели.
```
samples = (
    pd.read_csv("data/heart.csv")
    .sample(n=5)
    .drop(columns=["target"])
    .reset_index(drop=True)
)

with open("sample.json", "w") as f:
    f.write(
        json.dumps(
            {"input_data": json.loads(samples.to_json(orient="split", index=False))}
        )
    )
```
В следующих примерах кода 5 наблюдений из обучаемого набора данных удаляется target столбец (по мере прогнозирования модели) и создается запрос.
```
samples = (
    pd.read_csv("data/heart.csv")
    .sample(n=5)
    .drop(columns=["target"])
    .reset_index(drop=True)
)    
```

Тестирование развертывания

az ml online-endpoint invoke --name $ENDPOINT_NAME --request-file sample.json

ml_client.online_endpoints.invoke(
    endpoint_name=endpoint_name,
    request_file="sample.json",
)

deployment_client.predict(
    endpoint=endpoint_name, 
    df=samples
)

Создание зеленого развертывания в конечной точке

Предположим, что существует новая версия модели, созданной командой разработчиков, и она готова к работе. Сначала мы можем попытаться запустить эту модель, и после того, как мы уверены, мы можем обновить конечную точку, чтобы маршрутизировать трафик к нему.

Регистрация новой версии модели

MODEL_NAME='heart-classifier'
az ml model create --name $MODEL_NAME --type "mlflow_model" --path "model"

Давайте получим номер версии новой модели:

VERSION=$(az ml model show -n heart-classifier --label latest | jq -r ".version")

model_name = 'heart-classifier'
model_local_path = "model"

model = ml_client.models.create_or_update(
     Model(name=model_name, path=model_local_path, type=AssetTypes.MLFLOW_MODEL)
)
version = model.version

model_name = 'heart-classifier'
model_local_path = "model"

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"file://{model_local_path}"
)
version = registered_model.version

Настройка нового развертывания
green-deployment.yml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: xgboost-model
endpoint_name: heart-classifier-edp
model: azureml:heart-classifier@latest
instance_type: Standard_DS2_v2
instance_count: 1
```
Мы назовем развертывание следующим образом:
```
GREEN_DEPLOYMENT_NAME="xgboost-model-$VERSION"
```
```
green_deployment_name = f"xgboost-model-{version}"
```
Настройте требования к оборудованию развертывания:
```
green_deployment = ManagedOnlineDeployment(
    name=green_deployment_name,
    endpoint_name=endpoint_name,
    model=model,
    instance_type="Standard_DS2_v2",
    instance_count=1,
)
```
Если у конечной точки нет подключения исходящего трафика, используйте упаковку модели (предварительная версия), включив аргумент with_package=True:
```
green_deployment = ManagedOnlineDeployment(
    name=green_deployment_name,
    endpoint_name=endpoint_name,
    model=model,
    instance_type="Standard_DS2_v2",
    instance_count=1,
    with_package=True,
)
```
```
green_deployment_name = f"xgboost-model-{version}"
```
Чтобы настроить требования к оборудованию развертывания, необходимо создать JSON-файл с требуемой конфигурацией:
```
deploy_config = {
    "instance_type": "Standard_DS2_v2",
    "instance_count": 1,
}
```
Совет

Мы используем то же подтверждение оборудования, указанное в параметре deployment-config-file. Однако нет требований к той же конфигурации. Вы можете настроить другое оборудование для разных моделей в зависимости от требований.

Запись конфигурации в файл:
```
deployment_config_path = "deployment_config.json"
with open(deployment_config_path, "w") as outfile:
    outfile.write(json.dumps(deploy_config))
```

Создание нового развертывания

az ml online-deployment create -n $GREEN_DEPLOYMENT_NAME --endpoint-name $ENDPOINT_NAME -f green-deployment.yml

Если у конечной точки нет подключения к исходящего трафика, используйте упаковку модели (предварительную версию), включив флаг --with-package:

az ml online-deployment create --with-package -n $GREEN_DEPLOYMENT_NAME --endpoint-name $ENDPOINT_NAME -f green-deployment.yml

ml_client.online_deployments.begin_create_or_update(green_deployment).result()

new_deployment = deployment_client.create_deployment(
    name=green_deployment_name,
    endpoint=endpoint_name,
    model_uri=f"models:/{model_name}/{version}",
    config={"deploy-config-file": deployment_config_path},
)

Тестирование развертывания без изменения трафика

az ml online-endpoint invoke --name $ENDPOINT_NAME --deployment-name $GREEN_DEPLOYMENT_NAME --request-file sample.json

ml_client.online_endpoints.invoke(
    endpoint_name=endpoint_name,
    deployment_name=green_deployment_name
    request_file="sample.json",
)

deployment_client.predict(
    endpoint=endpoint_name, 
    deployment_name=green_deployment_name, 
    df=samples
)

Совет

Обратите внимание, как теперь мы указываем имя развертывания, которое мы хотим вызвать.

Постепенно обновите трафик

Мы уверены в новом развертывании, мы можем обновить трафик, чтобы маршрутизировать некоторые из них в новое развертывание. Трафик настраивается на уровне конечной точки:

Настройте трафик:

Этот шаг не требуется в Azure CLI

endpoint.traffic = {blue_deployment_name: 90, green_deployment_name: 10}

traffic_config = {"traffic": {blue_deployment_name: 90, green_deployment_name: 10}}

Запись конфигурации в файл:

traffic_config_path = "traffic_config.json"
with open(traffic_config_path, "w") as outfile:
    outfile.write(json.dumps(traffic_config))

Обновление конечной точки

az ml online-endpoint update --name $ENDPOINT_NAME --traffic "default=90 $GREEN_DEPLOYMENT_NAME=10"

ml_client.begin_create_or_update(endpoint).result()

deployment_client.update_endpoint(
    endpoint=endpoint_name,
    config={"endpoint-config-file": traffic_config_path},
)

Если вы решите переключить весь трафик на новое развертывание, обновите весь трафик:
Этот шаг не требуется в Azure CLI
```
endpoint.traffic = {blue_deployment_name: 0, green_deployment_name: 100}
```
```
traffic_config = {"traffic": {blue_deployment_name: 0, green_deployment_name: 100}}
```
Запись конфигурации в файл:
```
traffic_config_path = "traffic_config.json"
with open(traffic_config_path, "w") as outfile:
    outfile.write(json.dumps(traffic_config))
```

Обновление конечной точки

az ml online-endpoint update --name $ENDPOINT_NAME --traffic "default=0 $GREEN_DEPLOYMENT_NAME=100"

ml_client.begin_create_or_update(endpoint).result()

deployment_client.update_endpoint(
    endpoint=endpoint_name,
    config={"endpoint-config-file": traffic_config_path},
)

Так как старое развертывание не получает никакого трафика, его можно безопасно удалить:
```
az ml online-deployment delete --endpoint-name $ENDPOINT_NAME --name default
```
```
ml_client.online_deployments.begin_delete(
    name=blue_deployment_name, 
    endpoint_name=endpoint_name
)
```
```
deployment_client.delete_deployment(
    blue_deployment_name, 
    endpoint=endpoint_name
)
```
Совет

Обратите внимание, что на этом этапе было удалено прежнее "синее развертывание", а новое "зеленое развертывание" заняло место "синего развертывания".

Очистка ресурсов

az ml online-endpoint delete --name $ENDPOINT_NAME --yes

ml_client.online_endpoints.begin_delete(name=endpoint_name)

deployment_client.delete_endpoint(endpoint_name)

Внимание

Обратите внимание, что удаление конечной точки также удаляет все развертывания в нем.

Поделиться через