Importowanie z usługi Azure Table

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym artykule opisano sposób używania modułu Import danych w programie Machine Learning Studio (wersja klasyczna) do importowania danych strukturalnych lub częściowo ustrukturyzowanych z tabel platformy Azure do eksperymentu uczenia maszynowego.

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Usługa tabel platformy Azure to usługa do zarządzania danymi na platformie Azure, która może przechowywać duże ilości ustrukturyzowanych danych nierelacyjnych. Jest to magazyn danych NoSQL, który akceptuje uwierzytelnione wywołania z wewnątrz i na zewnątrz platformy Azure.

Importowanie z usługi Azure Table Storage wymaga wybrania jednego z dwóch typów kont: konta magazynu, do którego można uzyskać dostęp przy użyciu adresu URL sygnatury dostępu współdzielonego, lub prywatnego konta magazynu, które wymaga poświadczeń logowania.

Jak importować dane z tabel platformy Azure

Korzystanie z Kreatora importu danych

Moduł zawiera nowy kreator, który pomaga wybrać opcję magazynu, wybrać jedną z istniejących subskrypcji i kont oraz szybko skonfigurować wszystkie opcje.

  1. Dodaj moduł Import data (Importuj dane) do eksperymentu. Moduł można znaleźć w obszarze Dane wejściowe i wyjściowe.

  2. Kliknij pozycję Uruchom Kreatora importu danych i postępuj zgodnie z monitami.

  3. Po zakończeniu konfiguracji, aby rzeczywiście skopiować dane do eksperymentu, kliknij prawym przyciskiem myszy moduł i wybierz pozycję Uruchom wybrane.

Jeśli musisz edytować istniejące połączenie danych, kreator ładuje wszystkie poprzednie szczegóły konfiguracji, aby nie trzeba było ponownie uruchamiać od podstaw

Ręczne ustawianie właściwości w module Importowanie danych

W poniższych krokach opisano sposób ręcznego konfigurowania źródła importu.

  1. Dodaj moduł Import data (Importuj dane) do eksperymentu. Ten moduł można znaleźć w grupie Dane wejściowe i Wyjściowe na liście elementów eksperymentu w programie Machine Learning Studio (wersja klasyczna).

  2. W przypadku źródła danych wybierz pozycję Tabela platformy Azure.

  3. W polu Typ uwierzytelniania wybierz opcję Publiczny (adres URL sygnatury dostępu współdzielonego), jeśli wiesz, że informacje zostały podane jako publiczne źródło danych. Adres URL sygnatury dostępu współdzielonego to adres URL dostępu powiązanego z czasem, który można wygenerować za pomocą narzędzia magazynu platformy Azure.

    W przeciwnym razie wybierz pozycję Konto.

  4. Jeśli dane znajdują się w publicznym obiekcie blob, do którego można uzyskać dostęp przy użyciu adresu URL sygnatury dostępu współdzielonego, nie potrzebujesz dodatkowych poświadczeń, ponieważ ciąg adresu URL zawiera wszystkie informacje potrzebne do pobrania i uwierzytelnienia.

    W polu Table SAS URI (Adres URI sygnatury dostępu współdzielonego tabeli) wpisz lub wklej pełny adres URI, który definiuje konto i publiczny obiekt blob.

    Uwaga

    Na stronie dostępnej za pośrednictwem adresu URL sygnatury dostępu współdzielonego dane mogą być przechowywane tylko w tych formatach: CSV, TSV i ARFF.

  5. Jeśli twoje dane są na koncie prywatnym , musisz podać poświadczenia, w tym nazwę konta i klucz.

    • W obszarze Nazwa konta tabeli wpisz lub wklej nazwę konta zawierającego obiekt blob, do którego chcesz uzyskać dostęp.

      Jeśli na przykład pełny adres URL konta magazynu to https://myshared.table.core.windows.net, należy wpisać .myshared

    • W obszarze Klucz konta tabeli wklej klucz dostępu skojarzony z kontem magazynu.\

      Jeśli nie znasz klucza dostępu, zobacz sekcję "Wyświetlanie, kopiowanie i ponowne generowanie kluczy dostępu do magazynu" w tym artykule: Informacje o kontach usługi Azure Storage Accounts.

    • W polach Nazwa tabeli wpisz nazwę konkretnej tabeli, którą chcesz odczytać.

  6. Wybierz opcję wskazującą liczbę wierszy, które mają zostać przeskanowane przez polecenie Importuj dane. Import danych używa skanowania, aby uzyskać listę kolumn w danych i określić, jakie powinny być typy danych kolumn.

    • TopN: skanuj tylko określoną liczbę wierszy, zaczynając od góry zestawu danych.

      Domyślnie skanowanych jest 10 wierszy, ale można zwiększyć lub zmniejszyć tę wartość przy użyciu opcji Liczba wierszy dla topn .

      Jeśli dane są jednorodne i przewidywalne, wybierz pozycję TopN i wprowadź liczbę dla N. W przypadku dużych tabel może to spowodować szybsze odczytywanie.

    • ScanAll: skanuj wszystkie wiersze w tabeli.

      Jeśli dane mają strukturę z zestawami właściwości, które różnią się w zależności od głębokości i położenia tabeli, wybierz opcję SkanujWszystkie , aby przeskanować wszystkie wiersze. Zapewnia to integralność wynikowej konwersji właściwości i metadanych.

  7. Wskaż, czy dane mają być odświeżane przy każdym uruchomieniu eksperymentu. Jeśli wybierzesz opcję Użyj buforowanych wyników (ustawienie domyślne), moduł Import danych odczyta dane z określonego źródła przy pierwszym uruchomieniu eksperymentu, a następnie przechowa wyniki w pamięci podręcznej. Jeśli w parametrach modułu Import danych zostaną wprowadzone jakiekolwiek zmiany, dane zostaną ponownie załadowane.

    Usunięcie zaznaczenia tej opcji spowoduje, że dane będą odczytywane ze źródła przy każdym uruchomieniu eksperymentu, niezależnie od tego, czy dane są takie same, czy nie.

Przykłady

Przykłady użycia modułu Eksportowanie danych można znaleźć w Azure AI Gallery.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Często zadawane pytania

Jak uniknąć ponownego ładowania tych samych danych niepotrzebnie?

Jeśli źródło danych zmieni się, możesz odświeżyć zestaw danych i dodać nowe dane, uruchamiając ponownie pozycję Importuj dane. Jeśli jednak nie chcesz ponownie odczytywać ze źródła przy każdym uruchomieniu eksperymentu, wybierz opcję Użyj buforowanych wyników na wartość TRUE. Gdy ta opcja jest ustawiona na wartość TRUE, moduł sprawdza, czy eksperyment został wcześniej uruchomiony przy użyciu tego samego źródła i tych samych opcji danych wejściowych, a jeśli zostanie znaleziony poprzedni przebieg, dane w pamięci podręcznej są używane zamiast ponownego ładowania danych ze źródła.

Czy mogę filtrować dane, gdy są odczytywane ze źródła?

Moduł Import danych nie obsługuje filtrowania w przypadku odczytywania danych. Wyjątek stanowi odczyt ze źródeł danych, co czasami pozwala określić warunek filtru jako część adresu URL kanału informacyjnego.

Można jednak zmienić lub filtrować dane po ich odczytaniu do programu Machine Learning Studio (wersja klasyczna):

  • Użyj niestandardowego skryptu R, aby zmienić lub filtrować dane.
  • Użyj modułu Split Data (Podział danych) z wyrażeniem względnym lub wyrażeniem regularnym, aby odizolować dane, a następnie zapisz je jako zestaw danych.

Uwaga

Jeśli okazuje się, że załadowano więcej danych, niż potrzebujesz, możesz zastąpić buforowany zestaw danych, odczytując nowy zestaw danych i zapisując go o takiej samej nazwie jak starsze, większe dane.

Jak importowane dane obsługują dane ładowane z różnych regionów geograficznych?

Jeśli konto magazynu obiektów blob lub tabel znajduje się w innym regionie niż węzeł obliczeniowy używany do eksperymentu uczenia maszynowego, dostęp do danych może być wolniejszy. Ponadto są naliczane opłaty za ruch przychodzący i wychodzący danych w subskrypcji.

Dlaczego niektóre znaki w tabeli nie są prawidłowo wyświetlane?

Machine Learning obsługuje kodowanie UTF-8. Jeśli tabela używa innego kodowania, znaki mogą nie zostać zaimportowane poprawnie.

Czy istnieją niedozwolone znaki lub znaki, które są zmieniane podczas importowania?

Jeśli dane atrybutów zawierają znaki cudzysłowu lub sekwencje znaków ucieczki, są obsługiwane przy użyciu reguł dla takich znaków w Microsoft Excel. Wszystkie inne znaki są obsługiwane przy użyciu następujących specyfikacji jako wytycznych: RFC 4180.

Parametry modułu

Nazwa Zakres Typ Domyślne Domyślne
Źródło danych Lista Źródło danych lub ujścia Azure Blob Storage Źródłem danych może być protokół HTTP, FTP, anonimowy protokół HTTPS lub FTPS, plik w usłudze Azure BLOB Storage, tabela platformy Azure, Azure SQL Database, lokalna baza danych SQL Server, tabela Programu Hive lub punkt końcowy OData.
Typ uwierzytelniania PublicOrSas

Konto
tableAuthType Konto Określ, czy dane są w publicznym kontenerze dostępnym za pośrednictwem adresu URL sygnatury dostępu współdzielonego, czy też na prywatnym koncie magazynu, które wymaga uwierzytelnienia w celu uzyskania dostępu.

Publiczna lub SAS — opcje magazynu publicznego

Nazwa Zakres Typ Domyślny Opis
Table URI dowolny Ciąg
Wiersze do skanowania pod poszukiwaniu nazw właściwości za pośrednictwem sygnatury dostępu współdzielonego liczba całkowita
Liczba wierszy topn za pośrednictwem sygnatury dostępu współdzielonego

Konto — opcje magazynu prywatnego

Nazwa Zakres Typ Domyślny Opis
Nazwa konta tabeli
Klucz konta tabeli dowolny Securestring
Nazwa tabeli dowolny
Wiersze do skanowania pod poszukiwaniu nazw właściwości TopN

ScanAll
Liczba wierszy dla topn dowolny liczba całkowita

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Zestaw danych z pobranymi danymi

Wyjątki

Wyjątek Opis
Błąd 0027 Wyjątek występuje, gdy dwa obiekty muszą mieć ten sam rozmiar, ale nie.
Błąd 0003 Wyjątek występuje, jeśli co najmniej jeden element wejściowy ma wartość null lub jest pusty.
Błąd 0029 Wyjątek występuje, gdy zostanie przekazany nieprawidłowy identyfikator URI.
Błąd 0030 występuje wyjątek w programie , gdy nie jest możliwe pobranie pliku.
Błąd 0002 Wyjątek występuje, jeśli co najmniej jeden parametr nie może być analizowany lub konwertowany z określonego typu na typ wymagany przez metodę docelową.
Błąd 0009 Wyjątek występuje, jeśli nazwa konta usługi Azure Storage lub nazwa kontenera jest niepoprawnie określona.
Błąd 0048 Wyjątek występuje, gdy nie jest możliwe otwarcie pliku.
Błąd 0046 Wyjątek występuje, gdy nie jest możliwe utworzenie katalogu w określonej ścieżce.
Błąd 0049 Wyjątek występuje, gdy nie jest możliwe analizowanie pliku.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Importowanie danych
Eksportowanie danych
Importowanie z internetowego adresu URL za pośrednictwem protokołu HTTP
Importowanie z zapytania Hive
Importowanie z usługi Azure SQL Database
Importowanie z Azure Blob Storage
Importowanie od dostawców źródła danych
Importowanie z lokalnej bazy SQL Server Database