Deteção de anomalias multivariadas com floresta de isolamento

Artigo
01/23/2024

Este artigo mostra como você pode usar o SynapseML no Apache Spark para deteção de anomalias multivariadas. A deteção multivariada de anomalias permite detetar anomalias entre muitas variáveis ou séries temporais, tendo em conta todas as intercorrelações e dependências entre as diferentes variáveis. Nesse cenário, usamos o SynapseML para treinar um modelo de Floresta de Isolamento para deteção de anomalias multivariadas e, em seguida, usamos o modelo treinado para inferir anomalias multivariadas dentro de um conjunto de dados contendo medições sintéticas de três sensores IoT.

Para saber mais sobre o modelo de Floresta de Isolamento, consulte o artigo original de Liu et al..

Pré-requisitos

Ligue o seu bloco de notas a uma casa no lago. No lado esquerdo, selecione Adicionar para adicionar uma casa de lago existente ou criar uma casa de lago.

Importações de bibliotecas

from IPython import get_ipython
from IPython.terminal.interactiveshell import TerminalInteractiveShell
import uuid
import mlflow

from pyspark.sql import functions as F
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.types import *
from pyspark.ml import Pipeline

from synapse.ml.isolationforest import *

from synapse.ml.explainers import *

%matplotlib inline

from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from synapse.ml.core.platform import *

if running_on_synapse():
    shell = TerminalInteractiveShell.instance()
    shell.define_macro("foo", """a,b=10,20""")

Dados de entrada

# Table inputs
timestampColumn = "timestamp"  # str: the name of the timestamp column in the table
inputCols = [
    "sensor_1",
    "sensor_2",
    "sensor_3",
]  # list(str): the names of the input variables

# Training Start time, and number of days to use for training:
trainingStartTime = (
    "2022-02-24T06:00:00Z"  # datetime: datetime for when to start the training
)
trainingEndTime = (
    "2022-03-08T23:55:00Z"  # datetime: datetime for when to end the training
)
inferenceStartTime = (
    "2022-03-09T09:30:00Z"  # datetime: datetime for when to start the training
)
inferenceEndTime = (
    "2022-03-20T23:55:00Z"  # datetime: datetime for when to end the training
)

# Isolation Forest parameters
contamination = 0.021
num_estimators = 100
max_samples = 256
max_features = 1.0

Ler dados

df = (
    spark.read.format("csv")
    .option("header", "true")
    .load(
        "wasbs://publicwasb@mmlspark.blob.core.windows.net/generated_sample_mvad_data.csv"
    )
)

Transmitir colunas para tipos de dados apropriados

df = (
    df.orderBy(timestampColumn)
    .withColumn("timestamp", F.date_format(timestampColumn, "yyyy-MM-dd'T'HH:mm:ss'Z'"))
    .withColumn("sensor_1", F.col("sensor_1").cast(DoubleType()))
    .withColumn("sensor_2", F.col("sensor_2").cast(DoubleType()))
    .withColumn("sensor_3", F.col("sensor_3").cast(DoubleType()))
    .drop("_c5")
)

display(df)

Preparação de dados de formação

# filter to data with timestamps within the training window
df_train = df.filter(
    (F.col(timestampColumn) >= trainingStartTime)
    & (F.col(timestampColumn) <= trainingEndTime)
)
display(df_train)

Preparação de dados de teste

# filter to data with timestamps within the inference window
df_test = df.filter(
    (F.col(timestampColumn) >= inferenceStartTime)
    & (F.col(timestampColumn) <= inferenceEndTime)
)
display(df_test)

Modelo de floresta de isolamento de trem

isolationForest = (
    IsolationForest()
    .setNumEstimators(num_estimators)
    .setBootstrap(False)
    .setMaxSamples(max_samples)
    .setMaxFeatures(max_features)
    .setFeaturesCol("features")
    .setPredictionCol("predictedLabel")
    .setScoreCol("outlierScore")
    .setContamination(contamination)
    .setContaminationError(0.01 * contamination)
    .setRandomSeed(1)
)

Em seguida, criamos um pipeline de ML para treinar o modelo de Floresta de Isolamento. Também demonstramos como criar um experimento MLflow e registrar o modelo treinado.

O registro do modelo MLflow só é estritamente necessário se acessar o modelo treinado posteriormente. Para treinar o modelo e executar a inferência no mesmo bloco de anotações, o modelo de objeto do modelo é suficiente.

va = VectorAssembler(inputCols=inputCols, outputCol="features")
pipeline = Pipeline(stages=[va, isolationForest])
model = pipeline.fit(df_train)

Executar inferência

Carregue o Modelo de Floresta de Isolamento treinado

Executar inferência

df_test_pred = model.transform(df_test)
display(df_test_pred)

Detetor de anomalias pré-fabricado

Azure AI Anomaly Detetor

Status de anomalia do ponto mais recente: gera um modelo usando pontos anteriores e determina se o ponto mais recente é anômalo (Scala, Python)
Encontrar anomalias: gera um modelo usando uma série inteira e encontra anomalias na série (Scala, Python)

Partilhar via

Deteção de anomalias multivariadas com floresta de isolamento

Pré-requisitos

Importações de bibliotecas

Dados de entrada

Ler dados

Preparação de dados de formação

Preparação de dados de teste

Modelo de floresta de isolamento de trem

Executar inferência

Detetor de anomalias pré-fabricado

Comentários

Recursos adicionais

Partilhar via

Deteção de anomalias multivariadas com floresta de isolamento

Pré-requisitos

Importações de bibliotecas

Dados de entrada

Ler dados

Preparação de dados de formação

Preparação de dados de teste

Modelo de floresta de isolamento de trem

Executar inferência

Detetor de anomalias pré-fabricado

Conteúdos relacionados

Comentários

Recursos adicionais