Что такое интерфейс командной строки Databricks?

Примечание.

Эта информация относится к Интерфейсу командной строки Databricks версии 0.205 и выше. Интерфейс командной строки Databricks находится в общедоступной предварительной версии.

Использование интерфейса командной строки Databricks распространяется на лицензию Databricks и уведомление о конфиденциальности Databricks, включая все положения об использовании.

Интерфейс командной строки Databricks (также известный как Интерфейс командной строки Databricks) предоставляет средство автоматизации платформы Azure Databricks из терминала, командной строки или скриптов автоматизации. Вы также можете запускать команды CLI Databricks из рабочей области Databricks с помощью веб-терминала. См . статью "Запуск команд оболочки" в веб-терминале Azure Databricks.

Сведения об установке и настройке проверки подлинности для интерфейса командной строки Databricks см. в разделе "Установка или обновление интерфейса командной строки Databricks" и проверки подлинности для интерфейса командной строки Databricks.

Сведения о устаревших пользователях Интерфейса командной строки Databricks

  • Databricks не планирует поддержку или новую функцию для устаревшей интерфейса командной строки Databricks.
  • Дополнительные сведения о устаревшей интерфейсе командной строки Databricks см. в статье Databricks CLI (устаревшая версия).
  • Сведения о миграции из Databricks CLI версии 0.18 или ниже в Databricks CLI версии 0.205 или более поздней, см. в статье Databricks CLI.

Как работает интерфейс командной строки Databricks?

Интерфейс командной строки упаковывает REST API Databricks, который предоставляет конечные точки для изменения или запроса сведений об учетных записях Azure Databricks и объектах рабочей области. См. справочник по REST API Azure Databricks.

Например, чтобы распечатать сведения о отдельном кластере в рабочей области, выполните интерфейс командной строки следующим образом:

databricks clusters get 1234-567890-a12bcde3

При этом curlэквивалентная операция выглядит следующим образом:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

Пример. Создание задания Azure Databricks

В следующем примере интерфейс командной строки используется для создания задания Azure Databricks. Это задание содержит одну задачу задания. Эта задача выполняет указанную записную книжку Azure Databricks. Эта записная книжка зависит от определенной версии пакета PyPI с именем wheel. Для выполнения этой задачи задание временно создает кластер заданий, который экспортирует переменную среды с именем PYSPARK_PYTHON. После выполнения задания кластер завершается.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Следующие шаги