Tutorial: Executar Python em um cluster e como um trabalho usando a extensão Databricks para Visual Studio Code

Este tutorial orienta você na configuração da extensão Databricks para Visual Studio Code e, em seguida, executando Python em um cluster do Azure Databricks e como um trabalho do Azure Databricks em seu espaço de trabalho remoto. Consulte O que é a extensão Databricks para Visual Studio Code?.

Requisitos

Este tutorial requer que:

  • Você instalou a extensão Databricks para Visual Studio Code. Consulte Instalar a extensão Databricks para Visual Studio Code.
  • Você tem um cluster remoto do Azure Databricks para usar. Anote o nome do cluster. Para exibir os clusters disponíveis, na barra lateral do espaço de trabalho do Azure Databricks, clique em Computação. Consulte Computação.

Etapa 1: Criar um novo projeto Databricks

Nesta etapa, você cria um novo projeto Databricks e configura a conexão com seu espaço de trabalho remoto do Azure Databricks.

  1. Inicie o Visual Studio Code e, em seguida, clique em Arquivo > Abrir pasta e abra alguma pasta vazia em sua máquina de desenvolvimento local.
  2. Na barra lateral, clique no ícone do logotipo do Databricks . Isso abre a extensão Databricks.
  3. Na visualização Configuração, clique em Migrar para um Projeto Databricks.
  4. A Paleta de Comandos para configurar seu espaço de trabalho Databricks é aberta. Para Databricks Host, insira ou selecione sua URL por espaço de trabalho, por exemplo https://adb-1234567890123456.7.azuredatabricks.net.
  5. Selecione um perfil de autenticação para o projeto. Consulte Configuração de autenticação para a extensão Databricks para Visual Studio Code.

Etapa 2: Adicionar informações de cluster à extensão Databricks e iniciar o cluster

  1. Com a visualização Configuração já aberta, clique em Selecionar um cluster ou clique no ícone de engrenagem (Configurar cluster).

    Configurar cluster

  2. Na Paleta de comandos, selecione o nome do cluster que você criou anteriormente.

  3. Clique no ícone de reprodução (Start Cluster) se ainda não tiver sido iniciado.

Etapa 3: Criar e executar código Python

  1. Crie um arquivo de código Python local: na barra lateral, clique no ícone da pasta (Explorer).

  2. No menu principal, clique em Arquivo > Novo Arquivo. Nomeie o arquivo demo.py e salve-o na raiz do projeto.

  3. Adicione o seguinte código ao ficheiro e, em seguida, guarde-o. Este código cria e exibe o conteúdo de um DataFrame PySpark básico:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Clique no ícone Executar no Databricks ao lado da lista de guias do editor e, em seguida, clique em Carregar e Executar Arquivo. A saída aparece na visualização Debug Console .

    Carregar e executar ficheiro a partir do ícone

    Como alternativa, no modo de exibição Explorer, clique com o botão direito do mouse no demo.py arquivo e clique em Executar no Databricks>Carregar e Executar Arquivo.

    Carregar e executar ficheiros a partir do menu de contexto

Etapa 4: Executar o código como um trabalho

Para executar demo.py como um trabalho, clique no ícone Executar no Databricks ao lado da lista de guias do editor e, em seguida, clique em Executar Arquivo como Fluxo de Trabalho. A saída aparece em uma guia separada do editor ao lado do editor de demo.py arquivos.

Executar arquivo como fluxo de trabalho a partir do ícone

Como alternativa, clique com o botão direito do demo.py mouse no arquivo no painel Explorer e selecione Executar no Databricks>Executar arquivo como fluxo de trabalho.

Executar arquivo como fluxo de trabalho no menu de contexto

Próximos passos

Agora que você usou com êxito a extensão Databricks para Visual Studio Code para carregar um arquivo Python local e executá-lo remotamente, você também pode: