Vytvoření a prozkoumání datové sady Azure Machine Learning s popisky

V tomto článku se dozvíte, jak exportovat popisky dat z projektu popisování dat služby Azure Machine Learning a načíst je do oblíbených formátů, jako je datový rámec pandas pro zkoumání dat.

Co jsou datové sady s popisky

Datové sady Azure Machine Learning s popisky se označují jako označené datové sady. Tyto konkrétní datové sady jsou TabularDatasets s vyhrazeným sloupcem popisků a vytvářejí se pouze jako výstup projektů popisků dat ve službě Azure Machine Learning. Vytvořte projekt popisků dat pro popisky obrázků nebo popisky textu. Machine Learning podporuje projekty popisování dat pro klasifikaci obrázků, více popisků nebo více tříd a identifikaci objektů společně s ohraničenými rámečky.

Požadavky

Export popisků dat

Po dokončení projektu popisování dat můžete exportovat data popisků z projektu popisků. Díky tomu můžete zachytit jak odkaz na data, tak jejich popisky a exportovat je ve formátu COCO nebo jako datovou sadu Azure Machine Learning.

Použijte tlačítko Exportovat na stránce s podrobnostmi projektu s popisky.

Tlačítko Exportovat v uživatelském rozhraní studia

Kokosový ořech

Soubor COCO se vytvoří ve výchozím úložišti objektů blob pracovního prostoru Služby Azure Machine Learning ve složce v rámci exportu nebo coco.

Poznámka:

V projektech detekce objektů jsou exportované hodnoty "bbox": [x,y,width,height]" v souboru COCO normalizovány. Jsou škálované na 1. Příklad: ohraničující rámeček na umístění (10, 10) s šířkou 30 pixelů , výškou 60 pixelů, v obrázku o rozměrech 640 × 480 pixelů se označí jako (0,015625. 0,02083, 0,046875, 0,125). Vzhledem k tomu, že jsou coordinty normalizovány, zobrazí se jako "šířka" a "výška" pro všechny obrázky jako "0,0". Skutečnou šířku a výšku lze získat pomocí knihovny Pythonu, jako je OpenCV nebo Pillow(PIL).

Datová sada Azure Machine Learning

K exportované datové sadě Azure Machine Learning se dostanete v části Datové sady studio Azure Machine Learning. Stránka s podrobnostmi datové sady také poskytuje vzorový kód pro přístup k popiskům z Pythonu.

Exportovaná datová sada

Tip

Po exportu označených dat do datové sady Azure Machine Learning můžete pomocí AutoML vytvářet modely počítačového zpracování obrazu natrénované na označených datech. Další informace o nastavení AutoML pro trénování modelů počítačového zpracování obrazu pomocí Pythonu

Prozkoumání datových sad označených pomocí datového rámce pandas

Načtěte datové sady s popisky do datového rámce pandas, abyste mohli využívat oblíbené opensourcové knihovny pro zkoumání dat pomocí to_pandas_dataframe() metody z azureml-dataprep třídy.

Nainstalujte třídu pomocí následujícího příkazu prostředí:

pip install azureml-dataprep

V následujícím kódu je datová sada výstupem z projektu popisku, animal_labels který jste dříve uložili do pracovního prostoru. Exportovaná datová sada je TabularDataset.

PLATÍ PRO: Python SDK azureml v1

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)

Další kroky