FileDatasetFactory 클래스
Azure Machine Learning용 파일 데이터 세트를 만드는 메서드가 포함되어 있습니다.
이 클래스에 정의된 from_files 메서드에서 FileDataset가 만들어집니다.
파일 데이터 세트 작업에 대한 자세한 내용은 Notebook https://aka.ms/filedataset-samplenotebook을 참조하세요.
- 상속
-
builtins.objectFileDatasetFactory
생성자
FileDatasetFactory()
메서드
from_files |
파일 스트림을 나타내는 FileDataset을 만듭니다. |
upload_directory |
소스 디렉터리에서 데이터 세트를 만듭니다. |
from_files
파일 스트림을 나타내는 FileDataset을 만듭니다.
static from_files(path, validate=True, partition_format=None, is_file=False)
매개 변수
Name | Description |
---|---|
path
필수
|
|
validate
필수
|
반환된 데이터 세트에서 데이터를 로드할 수 있는지 확인할지 여부를 나타냅니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
partition_format
필수
|
경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '../Accounts/2019/01/01/data.jsonl' 경로가 지정되면 파티션은 부서 이름 및 시간 기준, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.jsonl'은 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다. |
is_file
필수
|
모든 입력 경로가 파일을 가리키는지 여부를 나타냅니다. 데이터 세트 엔진은 기본적으로 입력 경로가 파일을 가리키는지 여부를 확인하려고 시도합니다. 모든 입력 경로가 파일인 경우 이 플래그를 True로 설정하여 데이터 세트 만들기 속도를 높입니다. |
반환
형식 | Description |
---|---|
FileDataset 개체입니다. |
설명
from_files는 제공된 경로에서 파일 스트림을 로드하는 작업을 정의하는 FileDataset 클래스의 개체를 만듭니다.
Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 에 지정된 path
파일이 에 Datastore 있거나 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL을 사용하여 액세스할 수 있어야 합니다.
사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
소스 디렉터리에서 데이터 세트를 만듭니다.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
매개 변수
Name | Description |
---|---|
src_dir
필수
|
업로드할 로컬 디렉터리입니다. |
target
필수
|
필수, 파일이 업로드될 데이터 저장소 경로입니다. |
pattern
필수
|
선택 사항, 제공된 경우 '*', '?'를 지원하고 []로 표현된 문자 범위를 지원하는 Python glob 패키지와 유사하게 지정된 패턴과 일치하는 모든 경로 이름을 필터링합니다. |
show_progress
필수
|
선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다. |
반환
형식 | Description |
---|---|
등록된 데이터 세트입니다. |