Руководство по среде выполнения кластеров больших данных SQL Server для Apache Spark

Область применения: SQL Server 2019 (15.x)

Внимание

Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, и программное обеспечение будет продолжать поддерживаться с помощью накопительных обновлений SQL Server до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.

Общие сведения о среде выполнения кластеров больших данных SQL Server для Apache Spark

Среда выполнения кластеров больших данных SQL Server для Apache Spark — это стандартизированная спецификация для Apache Spark, которая обеспечивает эффективное взаимодействие между дистрибутивами. Эта среда выполнения Spark представляет собой согласованный пакет с управлением версиями, содержащий дистрибутивы, оптимизированные подсистемы, основные библиотеки и пакеты для языков программирования.

Каждый продукт, использующий эту спецификацию среды выполнения, будет содержать одни и те же версии Apache Spark Core, PySpark, Scala Spark, Spark.R, sparklyr и .NET для Spark.

Все распространяемые пакеты и библиотеки также одинаковы. Одной из основных целей спецификации является повышение удобства для инженеров данных и специалистов по обработке и анализу данных за счет предоставления постоянно проверяемого и обновляемого готового списка пакетов и соединителей.

Преимущества среды выполнения кластеров больших данных SQL Server для Apache Spark.

  1. Оптимизация и функции подсистемы Spark, доступные для всех продуктов и служб
  2. Установленная периодичность выпуска
  3. Эффективное взаимодействие между продуктами и службами Spark
  4. Проверенные пакеты для инженеров данных и специалистов по обработке и анализу данных
  5. Согласованная история управления пакетами

Периодичность выпусков и стандарты именования

В спецификации среды выполнения кластеров больших данных SQL Server для Apache Spark определяется следующее.

Для именования среды выполнения используется следующий стандарт:

"PRODUCT_NAME.SPARK_MAJOR_VERSION.CALENDAR_YEAR.RELEASE#"

Пример: "BDC.3.2021.1".

RELEASE# — это последовательный семантический номер. Он не привязан к месяцам и к другим стандартам. Он становится неизменяемым после создания выпуска среды выполнения. С каждым выпуском кластеров больших данных SQL Server предоставляется один выпуск среды выполнения.

Что находится в текущем выпуске среды выполнения?

В разделе Заметки о выпуске платформы кластеров больших данных SQL Server указано имя и полное содержимое среды выполнения.

Следующие шаги

Дополнительные сведения см. в статье "Знакомство с SQL Server Кластеры больших данных".