Analýza dat pomocí bezserverového fondu SQL

V tomto kurzu se dozvíte, jak analyzovat data pomocí bezserverového fondu SQL.

Integrovaný bezserverový fond SQL

Bezserverové fondy SQL umožňují používat SQL bez nutnosti rezervovat kapacitu. Fakturace bezserverového fondu SQL je založená na množství zpracovaných dat ke spuštění dotazu, a ne na počtu uzlů použitých ke spuštění dotazu.

Každý pracovní prostor má předkonfigurovaný bezserverový fond SQL s názvem Předdefinovaný.

Analýza dat taxislužby NYC s využitím bezserverového fondu SQL

Poznámka:

Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.

  1. V nástroji Synapse Studio přejděte do centra Vývoj .

  2. Vytvořte nový skript SQL.

  3. Do skriptu vložte následující kód. (Aktualizujte contosolake název účtu úložiště a users použijte název kontejneru.)

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Vyberte Spustit.

Zkoumání dat je jen zjednodušený scénář, ve kterém můžete porozumět základním charakteristikám dat. Další informace o zkoumání a analýze dat najdete v tomto kurzu.

Vytvoření databáze pro zkoumání dat

Obsah souborů můžete procházet přímo prostřednictvím master databáze. V některých jednoduchých scénářích zkoumání dat nemusíte vytvářet samostatnou databázi. Při dalším zkoumání dat ale můžete chtít vytvořit některé utility objekty, například:

  • Externí zdroje dat, které představují pojmenované odkazy pro účty úložiště.
  • Přihlašovací údaje s vymezeným oborem databáze, které umožňují určit, jak se ověřit v externím zdroji dat.
  • Uživatelé databáze s oprávněními pro přístup k některým zdrojům dat nebo databázovým objektům.
  • Zobrazení, procedury a funkce nástroje, které můžete použít v dotazech.
  1. master Pomocí databáze vytvořte samostatnou databázi pro vlastní databázové objekty. Vlastní databázové objekty nelze v master databázi vytvořit.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Důležité

    Pomocí kolace s _UTF8 příponou se ujistěte, že text UTF-8 je správně převeden na VARCHAR sloupce. Latin1_General_100_BIN2_UTF8 poskytuje nejlepší výkon v dotazech, které čtou data ze souborů Parquet a kontejnerů Azure Cosmos DB. Další informace o změně kolací naleznete v tématu Typy kolace podporované pro Synapse SQL.

  2. Pomocí následujícího příkazu přepněte kontext master databáze.DataExplorationDB K přepnutí aktuální databáze můžete použít také ovládací prvek uživatelského rozhraní:

    USE DataExplorationDB
    
  3. Z DataExplorationDB vytváření utility objekty, jako jsou přihlašovací údaje a zdroje dat.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Poznámka:

    Externí zdroj dat lze vytvořit bez přihlašovacích údajů. Pokud přihlašovací údaje neexistují, použije se identita volajícího pro přístup k externímu zdroji dat.

  4. Volitelně můžete pomocí nově vytvořené DataExplorationDB databáze vytvořit přihlašovací jméno uživatele, který DataExplorationDB bude přistupovat k externím datům:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Dále vytvořte uživatele DataExplorationDB databáze pro výše uvedené přihlášení a udělte ADMINISTER DATABASE BULK OPERATIONS mu oprávnění.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Prozkoumejte obsah souboru pomocí relativní cesty a zdroje dat:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Publikujte změny v pracovním prostoru.

Databáze pro zkoumání dat je jen jednoduchý zástupný symbol, ve kterém můžete ukládat objekty nástroje. Fond Synapse SQL umožňuje provádět mnohem více a vytvářet logický datový sklad – relační vrstvu postavenou na zdrojích dat Azure. Další informace o vytvoření logického datového skladu najdete v tomto kurzu.

Další kroky