Was sind Hugging Face Transformers?

Dieser Artikel bietet eine Einführung in Hugging Face Transformers Azure Databricks. Es enthält Anleitungen zur Verwendung von Hugging Face Transformers und deren Installation auf Ihrem Cluster.

Hintergrundinformationen zu Hugging Face Transformers

Hugging Face Transformers ist ein Open-Source-Framework für Deep Learning, das von Hugging Face entwickelt wurde. Es bietet APIs und Tools zum Herunterladen Modellen, die dem neuesten Stand der Technik entsprechen, und zur weiteren Optimierung dieser Modelle zur Maximierung der Leistung. Diese Modelle unterstützen allgemeine Aufgaben in verschiedenen Modalitäten, z. B. linguistische Datenverarbeitung, maschinelles Sehen, Audio und multimodale Anwendungen.

Databricks Runtime for Machine Learning umfasst Hugging Face transformers in Databricks Runtime 10.4 LTS ML und höher sowie Hugging Face Datasets, Accelerate und Evaluate in Databricks Runtime 13.0 ML und höher.

Um zu überprüfen, welche Version von Hugging Face in Ihrer konfigurierten Databricks Runtime ML-Version enthalten ist, finden Sie im Abschnitt zu Python-Bibliotheken unter den relevanten Versionshinweisen.

Gründe für die Verwendung von Hugging Face Transformers

Für viele Anwendungen, z. B. Stimmungsanalyse und Textzusammenfassung, funktionieren vortrainierte Modelle ohne zusätzliches Modelltraining gut.

Hugging Face Transformers-Pipelines codieren bewährte Methoden und verfügen über Standardmodelle, die für verschiedene Aufgaben ausgewählt wurden, um den Einstieg zu erleichtern. Pipelines erleichtern die Verwendung von GPUs, sofern verfügbar, und ermöglichen die Batchverarbeitung von Elementen, die an die GPU gesendet werden, um eine bessere Durchsatzleistung zu erzielen.

Hugging Face bietet Folgendes:

  • Ein Modellhub mit vielen vortrainierten Modellen.
  • Die 🤗 Transformers-Bibliothek, die das Herunterladen und Verwenden dieser Modelle für NLP-Anwendungen und die Optimierung unterstützt. Üblicherweise wird sowohl ein Tokenizer als auch ein Modell für linguistische Datenverarbeitungsaufgaben zu benötigt.
  • 🤗Transformators Pipelines, die über eine einfache Schnittstelle für die meisten linguistischen Datenverarbeitungsaufgaben verfügen.

Installieren von transformers

Wenn die Azure Databricks-Runtime-Version auf Ihrem Cluster keine Hugging Face transformers enthält, können Sie die neueste Hugging Face transformers-Bibliothek als Databricks PyPI-Bibliothekinstallieren.

  %pip install transformers

Installieren von Modellabhängigkeiten

Verschiedene Modelle können unterschiedliche Abhängigkeiten aufweisen. Databricks empfiehlt, dass Sie %pip Magic-Befehle verwenden, um diese linguistische Datenverarbeitungsaufgaben bei Bedarf zu installieren.

Nachfolgend sind allgemeine Abhängigkeiten aufgeführt:

  • librosa: unterstützt das Decodieren von Audiodateien.
  • soundfile: erforderlich beim Generieren einiger Audiodatensets.
  • bitsandbytes: erforderlich, wenn load_in_8bit=True verwendet wird.
  • SentencePiece: wird als Tokenizer für NLP-Modelle verwendet.
  • timm: erforderlich für DetrForSegmentation.

Training mit einem einzelnen Knoten

Verwenden Sie einen Einzelknotencluster, um Workflows für einen Computer zu testen und zu migrieren.

Weitere Ressourcen:

Die folgenden Artikel enthalten Beispielnotebooks und Anleitungen für die Verwendung von Hugging Face transformers für die Feinabstimmung großer Sprachmodelle und Modellableitung in Azure Databricks.