Обработка естественного языка

Статья
09/09/2024

Вы можете выполнять задачи обработки естественного языка в Azure Databricks с помощью популярных библиотек открытый код, таких как Spark ML и spark-nlp или собственные библиотеки через партнерство Azure Databricks с John Snow Labs.

Примеры NLP с hugging Face, см. в разделе "Дополнительные ресурсы"

Создание компонентов из текста с помощью Машинного обучения Spark

Машинное обучение Spark содержит ряд средств обработки текста для создания функций из текстовых столбцов. Вы можете создавать входные функции из текста для алгоритмов обучения модели непосредственно в конвейерах машинного обучения Spark с помощью Машинного обучения Spark. Машинное обучение Spark поддерживает ряд текстовых процессоров, включая маркеризацию, обработку стоп-слов, word2vec и хэширование функций.

Обучение и вывод с помощью Spark NLP

Вы можете масштабировать множество методов глубокого обучения для обработки естественного языка в Spark с помощью библиотеки NLP с открытым исходным кодом Spark. Эта библиотека поддерживает стандартные операции обработки естественного языка, такие как маркеризация, распознавание именованных сущностей и векторизация с помощью включенных аннотаторов. Кроме того, можно суммировать, выполнять распознавание именованных сущностей, переводить и создавать текст с помощью многих предварительно обученных моделей глубокого обучения на основе преобразователей Spark NLP, таких как BERT и T5 Marion.

Выполнение вывода в пакетном режиме с помощью NLP Spark на ЦП

Spark NLP предоставляет множество предварительно обученных моделей, которые можно использовать с минимальным кодом. В этом разделе содержится пример использования Marian Transformer для машинного перевода. Полный набор примеров см. в документации по NLP Spark.

Требования

Установите NLP Spark в кластере с помощью последних координат Maven для NLP Spark, таких как com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0. Кластер должен быть запущен с соответствующим набором параметров конфигурации Spark, чтобы эта библиотека работала.
Чтобы использовать NLP Spark, кластер должен иметь правильный .jar файл, скачанный из John Snow Labs. Вы можете создать или использовать кластер под управлением любой совместимой среды выполнения.

Пример кода для машинного перевода

В ячейке записной книжки установите sparknlp библиотеки Python:

%pip install sparknlp

Создайте конвейер для перевода и запустите его на некоторых примерах текста:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Пример: модель распознавания именованных сущностей с помощью Spark NLP и MLflow

В примере записной книжки показано, как обучить модель распознавания именованных сущностей с помощью Spark NLP, сохранить модель в MLflow и использовать модель для вывода текста. Ознакомьтесь с документацией по John Snow Labs для Spark NLP , чтобы узнать, как обучать дополнительные модели обработки естественного языка.

Записная книжка обучения и вывода модели Spark NLP

Получить записную книжку

Здравоохранение NLP с Джоном Сноу Labs партнерство

Джон Snow Labs Spark NLP для здравоохранения является частной библиотекой для клинического и биомедического анализа текста. Эта библиотека предоставляет предварительно обученные модели для распознавания и работы с клиническими сущностями, наркотиками, факторами риска, анатомией, демографическими данными и конфиденциальными данными. Вы можете попробовать Spark NLP для здравоохранения с помощью интеграции Partner Connect с John Snow Labs. Вам нужна пробная или платная учетная запись с Джоном Сноу Labs, чтобы попробовать команды, показанные в этом руководстве.

Узнайте больше о полных возможностях John Snow Labs Spark NLP для здравоохранения и документации по использованию на своем веб-сайте.

Поделиться через