O que é a CLI do Databricks?

Observação

Essas informações se aplicam às versões 0.205 e superiores da CLI do Databricks. A CLI do Databricks está em Visualização Pública.

O uso da CLI do Databricks está sujeito à Licença do Databricks e ao Aviso de Privacidade do Databricks, incluindo quaisquer disposições de Dados de Uso.

A interface de linha de comando do Databricks (também conhecida como CLI do Databricks) fornece uma ferramenta para automatizar a plataforma do Azure Databricks de seus scripts de terminal, prompt de comando ou automação. Você também pode executar comandos da CLI do Databricks de dentro de um workspace do Databricks usando o terminal da Web. Confira Executar comandos shell no terminal web do Azure Databricks.

Para instalar e configurar a autenticação para a CLI do Databricks, consulte Instalar ou atualizar a CLI do Databricks e Autenticação para a CLI do Databricks.

Informações para usuários herdados da CLI do Databricks

  • O Databricks não planeja que haja suporte ou novos recursos para a CLI herdada do Databricks.
  • Para obter mais informações sobre a CLI herdada do Databricks, confira CLI do Databricks (herdada).
  • Para migrar da CLI do Databricks versão 0.18 ou inferior para a CLI do Databricks versão 0.205 ou superior, consulte migração da CLI do Databricks.

Como funciona a CLI do Databricks?

A CLI encapsula a API REST do Databricks, que fornece pontos de extremidade para modificar ou solicitar informações sobre objetos de conta e workspace do Azure Databricks. Confira a referência da API REST do Azure Databricks.

Por exemplo, para imprimir informações sobre um cluster individual em um workspace, execute a CLI da seguinte maneira:

databricks clusters get 1234-567890-a12bcde3

Com curl, a operação equivalente é a seguinte:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

Exemplo: criar um trabalho do Azure Databricks

O exemplo a seguir usa a CLI para criar um trabalho do Azure Databricks. Este trabalho contém uma única tarefa de trabalho. Essa tarefa executa o notebook do Azure Databricks especificado. Este notebook tem uma dependência em uma versão específica do pacote PyPI chamado wheel. Para executar essa tarefa, o trabalho cria temporariamente um cluster de trabalho que exporta uma variável de ambiente chamada PYSPARK_PYTHON. Depois que o trabalho for executado, o cluster será encerrado.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Próximas etapas