Verarbeitung natürlicher Sprache

Sie können Aufgaben zur linguistischen Datenverarbeitung in Azure Databricks mithilfe gängiger Open-Source-Bibliotheken wie Spark ML und Spark NLP oder proprietären Bibliotheken über die Azure Databricks-Partnerschaft mit John Snow Labs ausführen.

Beispiele für NLP mit Hugging Face finden Sie unter Zusätzliche Ressourcen

Featureerstellung auf der Grundlage von Text mithilfe von Spark ML

Spark ML enthält eine Reihe von Textverarbeitungstools zum Erstellen von Features aus Textspalten. Mithilfe von Spark ML können Sie Eingabefeatures aus Text für Modelltrainingsalgorithmen direkt in Ihren Spark ML-Pipelines erstellen. Spark ML unterstützt eine Reihe von Textprozessoren, einschließlich Tokenisierung, Verarbeitung von Stoppwörtern, word2vec und Featurehashing.

Training und Rückschluss mithilfe von Spark NLP

Sie können viele Deep Learning-Methoden für die linguistische Datenverarbeitung in Spark mithilfe der Open-Source-Bibliothek von Spark NLP hochskalieren. Diese Bibliothek unterstützt mithilfe der enthaltenen Annotatoren Standardvorgänge für die linguistische Datenverarbeitung, z. B. Tokenisierung, Erkennung benannter Entitäten und Vektorisierung. Mit vielen vortrainierten Deep Learning-Modellen, die auf den Transformatoren von Spark NLP wie BERT und T5 Marion basieren, können Sie auch eine Zusammenfassung erstellen, die Erkennung benannter Entitäten ausführen sowie Text übersetzen und generieren.

Durchführen von Rückschlüssen im Batchmodus mithilfe von Spark NLP auf CPUs

Spark NLP bietet viele vortrainierte Modelle, die Sie mit minimalem Code verwenden können. Dieser Abschnitt enthält ein Beispiel für die Verwendung des Transformators Marian für die maschinelle Übersetzung. Alle Beispiele finden Sie in der Spark NLP-Dokumentation.

Anforderungen

  • Installieren Sie Spark NLP auf dem Cluster. Verwenden Sie dabei die neuesten Maven-Koordinaten für Spark NLP, z. B. com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Ihr Cluster muss mit den entsprechenden Spark-Konfigurationsoptionen gestartet werden, damit diese Bibliothek funktioniert.
  • Um Spark NLP zu verwenden, muss Ihr Cluster über die richtige .jar-Datei verfügen, die von John Snow Labs heruntergeladen wurde. Sie können einen Cluster erstellen oder verwenden, der eine beliebige kompatible Runtime ausführt.

Beispielcode für maschinelle Übersetzung

Installieren Sie sparknlp-Python-Bibliotheken in einer Notebook-Zelle:

%pip install sparknlp

Erstellen Sie eine Pipeline für die Übersetzung, und führen Sie sie für einen Beispieltext aus:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Beispiel: NER-Modell (Erkennung benannter Entitäten) mit Spark NLP und MLflow

Das Beispiel-Notebook veranschaulicht, wie Sie ein Modell zur Erkennung benannter Entitäten von Spark NLP trainieren, das Modell in MLflow speichern und das Modell für Rückschlüsse auf Text verwenden. Weitere Informationen zum Trainieren zusätzlicher Modelle für die linguistische Datenverarbeitung finden Sie in der John Snow Labs-Dokumentation für Spark NLP.

Spark NLP: Notebook für Modelltraining und -rückschlüsse

Notebook abrufen

NLP im Gesundheitswesen dank der Partnerschaft mit John Snow Labs

John Snow Labs Spark NLP for Healthcare ist eine geschützte Bibliothek für das Text Mining klinischer und biomedizinischer Texte. Diese Bibliothek bietet vortrainierte Modelle zum Erkennen und Verwenden von klinischen Entitäten, Medikamenten, Risikofaktoren, Anatomie, Demografie und vertraulichen Daten. Sie können Spark NLP for Healthcare mithilfe der Partner Connect-Integration mit John Snow Labs ausprobieren. Sie benötigen ein Test- oder kostenpflichtiges Konto bei John Snow Labs, um die in diesem Handbuch gezeigten Befehle auszuprobieren.

Weitere Informationen zu den vollständigen Funktionen von John Snow Labs Spark NLP for Healthcare und eine Dokumentation zur Verwendung finden Sie auf der Website von John Snow Labs.