Öğretici: Azure Machine Learning'de Azure Synapse ADLS 2. Nesil Verilerine Erişme

Bu öğreticide, Azure Machine Learning'den (Azure Machine Learning) Azure Synapse Azure Data Lake Storage 2. Nesil (ADLS 2. Nesil) içinde depolanan verilere erişme işleminde size yol göstereceğiz. Bu özellik özellikle Otomatik ML, tümleşik model ve deneme izleme gibi araçlardan veya Azure Machine Learning'de sağlanan GPU'lar gibi özel donanımdan yararlanarak makine öğrenmesi iş akışınızı kolaylaştırmayı amaçladığınızda değerlidir.

Azure Machine Learning'de ADLS 2. Nesil verilerine erişmek için Azure Synapse ADLS 2. Nesil depolama hesabına işaret eden bir Azure Machine Learning Veri Deposu oluşturacağız.

Önkoşullar

  • Azure Synapse Analytics çalışma alanı. Varsayılan depolama alanı olarak yapılandırılmış bir Azure Data Lake Storage 2. Nesil depolama hesabına sahip olduğundan emin olun. Birlikte çalıştığınız Data Lake Storage 2. Nesil dosya sistemi için Depolama Blob Veri Katkıda Bulunanı olduğunuzdan emin olun.
  • Azure Machine Learning çalışma alanı.

Kitaplıkları yükleme

İlk olarak paketi yükleyeceğiz azure-ai-ml .

%pip install azure-ai-ml

Veri deposu oluşturma

Azure Machine Learning, mevcut Azure depolama hesabınıza bir başvuru işlevi gören Datastore olarak bilinen bir özellik sunar. Azure Synapse ADLS 2. Nesil depolama hesabımıza başvuran bir Datastore oluşturacağız.

Bu örnekte Azure Synapse ADLS 2. Nesil depolama alanımıza bağlanan bir Datastore oluşturacağız. Bir MLClient nesneyi başlatdıktan sonra, ADLS 2. Nesil hesabınıza bağlantı ayrıntıları sağlayabilirsiniz. Son olarak, Datastore'u oluşturmak veya güncelleştirmek için kodu yürütebilirsiniz.

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

# Provide the connection details to your Azure Synapse ADLSg2 storage account
store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Azure Machine Learning veri depolarında bu öğreticiyi kullanarak Azure Machine Learning veri depolarını oluşturma ve yönetme hakkında daha fazla bilgi edinebilirsiniz.

ADLS 2. Nesil Depolama Hesabınızı bağlama

Veri deponuzu ayarladıktan sonra ADLSg2 hesabınıza bağlama oluşturarak bu verilere erişebilirsiniz. Azure Machine Learning'de ADLS 2. Nesil hesabınıza bağlama oluşturmak için çalışma alanınızla depolama hesabınız arasında doğrudan bağlantı kurulması gerekir ve bu da içinde depolanan verilere sorunsuz erişim sağlar. Temel olarak bağlama, Azure Machine Learning'in ADLS 2. Nesil hesabınızdaki dosya ve klasörlerle çalışma alanınızdaki yerel dosya sisteminin bir parçasıymış gibi etkileşim kurmasını sağlayan bir yol görevi görür.

Depolama hesabı bağlandıktan sonra, doğrudan Azure Machine Learning ortamınızdaki tanıdık dosya sistemi işlemlerini kullanarak ADLS 2. Nesil'de depolanan verileri zahmetsizce okuyabilir, yazabilir ve işleyebilir ve veri ön işleme, model eğitimi ve deneme görevlerini basitleştirebilirsiniz.

Bunu yapmak için:

  1. İşlem altyapınızı başlatın.

  2. Veri Eylemleri'ne ve ardından Bağla'ya tıklayın.

    Screenshot of Azure Machine Learning option to select data actions.

  3. Buradan ADLSg2 depolama hesabı adınızı görüp seçmelisiniz. Bağlamanızın oluşturulması birkaç dakika sürebilir.

  4. Bağlamanız hazır olduktan sonra Veri eylemleri'ne ve ardından Tüket'e tıklayın. Veri'nin altında, verileri kullanmak istediğiniz bağlamayı seçebilirsiniz.

Artık bağlı Azure Data Lake Depolama hesabınızdaki verileri doğrudan okumak için tercih ettiğiniz kitaplıkları kullanabilirsiniz.

Depolama hesabınızdan veri okuma

import os
# List the files in the mounted path
print(os.listdir("/home/azureuser/cloudfiles/data/datastore/{name of mount}"))

# Get the path of your file and load the data using your preferred libraries
import pandas as pd
df = pd.read_csv("/home/azureuser/cloudfiles/data/datastore/{name of mount}/{file name}")
print(df.head(5))

Sonraki adımlar