Doğal dil işleme

John Snow Labs ile Azure Databricks ortaklığı aracılığıyla Spark ML ve spark-nlp gibi popüler açık kaynak kitaplıklarını veya özel kitaplıkları kullanarak Azure Databricks'te doğal dil işleme görevlerini gerçekleştirebilirsiniz.

YüzLeri Kucaklama ile NLP örnekleri için bkz. Ek kaynaklar

Spark ML kullanarak metinden özellik oluşturma

Spark ML, metin sütunlarından özellik oluşturmak için bir dizi metin işleme aracı içerir. Spark ML kullanarak doğrudan Spark ML işlem hatlarınızda model eğitim algoritmaları için metinden giriş özellikleri oluşturabilirsiniz. Spark ML, belirteç oluşturma, sözcük işlemeyi durdurma, word2vec ve özellik karması gibi çeşitli metin işlemcilerini destekler.

Spark NLP kullanarak eğitim ve çıkarım

Açık kaynak Spark NLP kitaplığını kullanarak Spark'ta doğal dil işleme için birçok derin öğrenme yönteminin ölçeğini genişletebilirsiniz. Bu kitaplık, dahil edilen açıklama ekleyicileri kullanarak belirteç oluşturma, adlandırılmış varlık tanıma ve vektörleştirme gibi standart doğal dil işleme işlemlerini destekler. Ayrıca Spark NLP'nin BERT ve T5 Marion gibi transformatörlerini temel alan önceden eğitilmiş birçok derin öğrenme modelini kullanarak adlandırılmış varlık tanıma, çeviri ve metin oluşturma işlemlerini özetleyebilir, gerçekleştirebilirsiniz.

CPU'larda Spark NLP kullanarak toplu çıkarım gerçekleştirme

Spark NLP, en az kodla kullanabileceğiniz önceden eğitilmiş birçok model sağlar. Bu bölüm, makine çevirisi için Marian Transformer'ı kullanma örneğini içerir. Tüm örnekler için Spark NLP belgelerine bakın.

Gereksinimler

  • Spark NLP gibi com.johnsnowlabs.nlp:spark-nlp_2.12:4.1.0Spark NLP için en son Maven koordinatlarını kullanarak kümeye Spark NLP yükleyin. Bu kitaplığın çalışması için kümenizin uygun Spark yapılandırma seçenekleri ayarlanmış şekilde başlatılması gerekir.
  • Spark NLP'yi kullanmak için kümenizde John Snow Labs'den doğru .jar dosyanın indirilmiş olması gerekir. Uyumlu herhangi bir çalışma zamanını çalıştıran bir küme oluşturabilir veya kullanabilirsiniz.

Makine Çevirisi için örnek kod

Not defteri hücresinde python kitaplıklarını yükleyin sparknlp :

%pip install sparknlp

Çeviri için bir işlem hattı oluşturun ve bunu bazı örnek metinlerde çalıştırın:

from sparknlp.base import DocumentAssembler
from sparknlp.annotator import SentenceDetectorDLModel, MarianTransformer
from pyspark.ml import Pipeline

document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

sentence_detector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
  .setInputCols("document").setOutputCol("sentence")

marian_transformer = MarianTransformer.pretrained() \
  .setInputCols("sentence").setOutputCol("translation")

pipeline = Pipeline().setStages([document_assembler,  sentence_detector, marian_transformer])

data = spark.createDataFrame([["You can use Spark NLP to translate text. " + \
                               "This example pipeline translates English to French"]]).toDF("text")

# Create a pipeline model that can be reused across multiple data frames
model = pipeline.fit(data)

# You can use the model on any data frame that has a “text” column
result = model.transform(data)

display(result.select("text", "translation.result"))

Örnek: Spark NLP ve MLflow kullanan adlandırılmış varlık tanıma modeli

Örnek not defteri Spark NLP kullanarak adlandırılmış varlık tanıma modelini eğitmeyi, modeli MLflow'a kaydetmeyi ve metinde çıkarım için modeli kullanmayı gösterir. Ek doğal dil işleme modellerini eğitmeyi öğrenmek için Spark NLP için John Snow Labs belgelerine bakın.

Spark NLP modeli eğitimi ve çıkarım not defteri

Not defterini alma

John Snow Labs ortaklığı ile healthcare NLP

John Snow Labs Spark NLP for Healthcare, klinik ve biyomedikal metin madenciliği için özel bir kitaplıktır. Bu kitaplık klinik varlıkları, ilaçları, risk faktörlerini, anatomiyi, demografiyi ve hassas verileri tanımak ve bunlarla çalışmak için önceden eğitilmiş modeller sağlar. John Snow Labs ile İş Ortağı Bağlantısı tümleştirmesini kullanarak Sağlık hizmetleri için Spark NLP'yi deneyebilirsiniz. Bu kılavuzda gösterildiği komutları denemek için John Snow Labs ile deneme veya ücretli bir hesaba ihtiyacınız vardır.

John Snow Labs Spark NLP for Healthcare'in tüm özellikleri ve web sitesinde kullanıma yönelik belgeler hakkında daha fazla bilgi edinin.