Analise dados com pools SQL dedicados

Neste tutorial, use os dados do NYC Taxi para explorar os recursos de um pool SQL dedicado.

Criar um conjunto de SQL dedicado

  1. No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools SQL em Pools do Google Analytics.
  2. Selecione Novo.
  3. Para Nome do pool SQL dedicado, selecione SQLPOOL1.
  4. Para Nível de desempenho , escolha DW100C.
  5. Selecione Rever + criar>Criar. Seu pool SQL dedicado estará pronto em alguns minutos.

Seu pool SQL dedicado está associado a um banco de dados SQL que também é chamado SQLPOOL1de .

  1. Navegue até Data>Workspace.
  2. Você verá um banco de dados chamado SQLPOOL1. Se não o vir, selecione Atualizar.

Um pool SQL dedicado consome recursos faturáveis enquanto estiver ativo. Você pode pausar o pool mais tarde para reduzir custos.

Nota

Ao criar um novo pool SQL dedicado (anteriormente SQL DW) em seu espaço de trabalho, a página de provisionamento de pool SQL dedicada será aberta. O provisionamento ocorrerá no servidor SQL lógico.

Carregue os dados do táxi de Nova York no SQLPOOL1

  1. No Synapse Studio, navegue até o hub Revelar, selecione o + botão para adicionar novo recurso e crie um novo script SQL.

  2. Selecione o pool (pool SQLPOOL1 criado na ETAPA 1 deste tutorial) na lista suspensa Conectar a acima do script.

  3. Introduza o seguinte código:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Selecione o botão Executar para executar o script.

  5. Este script termina em menos de 60 segundos. Ele carrega 2 milhões de linhas de dados do NYC Taxi em uma tabela chamada dbo.NYCTaxiTripSmall.

Explore os dados do NYC Taxi no pool SQL dedicado

  1. No Synapse Studio, vá para o hub de dados .

  2. Vá para SQLPOOL1>Tabelas.

  3. Clique com o botão direito do rato no dbo. Tabela NYCTaxiTripSmall e selecione Novo Script>SQL Selecione TOP 100 Linhas.

  4. Aguarde enquanto um novo script SQL é criado e executado.

  5. Na parte superior do script SQL, Connect to é definido automaticamente como o pool SQL chamado SQLPOOL1.

  6. Substitua o texto do script SQL por este código e execute-o.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Esta consulta cria uma tabela com dados agregados do trip_distance campo e, em seguida, consulta a nova tabeladbo.PassengerCountStats. Os dados mostram como as distâncias totais da viagem e a distância média da viagem se relacionam com o número de passageiros.

  7. Na janela de resultados do script SQL, altere a Exibir para Gráfico para ver uma visualização dos resultados como um gráfico de linhas. Altere a coluna Categoria para PassengerCount.

Próximo passo