범주 값 그룹화

아티클
05/06/2019

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
Azure Machine Learning에 대한 자세한 정보.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

여러 범주의 데이터를 새 범주로 그룹화

범주: 데이터 변환/조작

참고

적용 대상: Machine Learning Studio(클래식)만

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 그룹 범주 값 모듈을 사용하여 현재 위치 조회 테이블을 만드는 방법을 설명합니다.

범주 값을 그룹화하기 위한 일반적인 용도는 여러 문자열 값을 단일 새 수준으로 병합하는 것입니다. 예를 들어 지역의 개별 우편 번호는 단일 지역 코드에 할당하거나 여러 제품을 하나의 범주로 그룹화할 수 있습니다.

이 모듈을 사용하려면 사용하려는 조회 값을 입력하고 기존 값을 대체 값에 매핑합니다. 레이블 또는 기능으로 지정된 숫자 형식의 열이나 열이 아닌 범주 열에 대해서만 그룹화할 수 있습니다.

새 수준에 명시적으로 매핑되지 않은 열 값은 기본 수준에 할당됩니다. 예를 들어 모든 개별 우편 번호가 매핑되지 않은 경우 매핑되지 않은 값에 대한 수준으로 그룹화되며 알 수 없음으로 지정할 수 있습니다.

참고

기본 수준을 포함하여 최대 20개의 새 수준을 만들 수 있습니다. 더 많은 값이 필요하거나 매핑을 동적으로 정의해야 하는 경우 R 스크립트 실행 모듈에서 사용자 지정 R 스크립트를 사용하는 것이 좋습니다. 또는 SQL 변환 적용 모듈에서 SQL 문을 사용합니다.

그룹 범주 값을 사용하는 방법

기존 값 목록과 새 범주를 미리 준비하는 것이 좋습니다. 각 범주에 대해 새 범주 이름과 범주에 포함할 값의 쉼표로 구분된 목록을 준비해야 합니다.

실험에 그룹 범주 값 모듈을 추가합니다. 데이터 변환, 조작에서 모듈을 찾을 수 있습니다.
변환할 값이 있는 데이터 세트를 커넥트.
그룹 범주 값의 속성 창에서 열 선택기를 사용하여 줄이려는 수준이 있는 열을 선택합니다.
- BEGIN WITH 및 NO COLUMNS를 클릭하여 시작한 다음 이름으로 열을 추가하는 것이 좋습니다. 그렇지 않으면 너무 많은 열이 후보로 추가되어 오류가 발생할 수 있습니다.
- 해당 열은 범주 열이어야 합니다. 그렇지 않은 경우 메타데이터 편집 업스트림을 추가하고 열 형식을 변경합니다.
- 문자열 대체를 적용할 수 없는 열을 입력에서 제거해야 합니다.
출력 모드의 경우 새 수준만 출력할지 또는 변경 내용을 추가하여 원래 열을 나란히 바꿀지 여부를 나타냅니다.

기본값인 ResultOnly는 새 값만 표시합니다. Inplace 옵션은 기존 열 값을 새 수준으로 바꿉니다.
기본 수준 이름의 경우 명시적으로 매핑되지 않은 모든 값의 대체로 사용할 문자열 값을 입력합니다. "알 수 없음" 또는 "기본값"과 같은 항목을 사용할 수 있습니다.

참고

이 기본 수준 값은 매핑할 수 없는 모든 값에 적용됩니다. 매핑할 의도가 없는 열을 실수로 포함하면 열의 모든 값에 값이 적용됩니다. 따라서 처리하기 전에 열 선택이 정확한지 확인합니다.
새 수준 수의 경우 매핑되지 않은 값의 기본 수준을 포함하여 새 범주(수준)의 총 수를 나타내는 숫자를 입력합니다.
새 수준 1의 이름으로 첫 번째 범주에 대한 새 그룹 이름을 제공합니다.
바로 뒤에 있는 텍스트 상자에 새 수준 1에 매핑할 이전 수준의 쉼표로 구분된 목록을 입력하거나 새 수준에 매핑할 모든 값의 전체 목록을 입력하거나 붙여넣습니다. 와일드카드 문자 및 정규식은 허용되지 않습니다.
계속해서 새 수준 이름을 입력하고 새 수준에 매핑해야 하는 값을 입력하거나 붙여넣습니다.

작업할 때 값 목록을 별도의 파일에 저장하는 것이 좋습니다. 수준 수를 변경하면 이전에 입력한 문자열이 모두 제거되고 다시 시작해야 합니다.

그러나 이전에 저장한 모듈을 편집하는 경우 원래 설정으로 되돌릴 수 있습니다.
실험을 실행합니다.

결과

결과를 보려면 그룹 범주 값 모듈을 마우스 오른쪽 단추로 클릭하고 결과 데이터 세트를 선택한 다음 시각화를 클릭합니다.

예

작동 중인 기계 학습의 예는 Azure AI 갤러리를 참조하세요.

Machine Learning Studio(클래식)에서 제공되는 자동차 가격 데이터 세트와 같이 쉽게 그룹화할 수 있는 몇 가지 문자열 변수가 있는 작은 데이터 세트를 사용하여 이 모듈을 직접 사용해 볼 수도 있습니다.

실린더 수를 사용하여 자동차 가격 데이터 세트의 자동차를 엔진 크기별로 그룹화한다고 가정해 보겠습니다. 다양한 엔진 크기 대신 다음과 같이 새 수준인 "big", "small" 및 "other"를 만듭니다.

대형 엔진: 실린더 6개 이상
소형 엔진: 2~4개의 실린더
기타: 기타 항목

데이터 세트 모듈에서 열 선택 모듈을 추가하고 열만 num-of-cylinders 선택합니다.
메타데이터 편집 모듈을 추가하고 열을 범주로 변경 num-of-cylinders합니다.
그룹 범주 값 모듈을 추가하고 수정된 데이터 세트를 연결합니다.
기본 수준 이름에 을 입력합니다other. 이 수준에 대한 값을 제공할 필요가 없습니다.
새 수준 1의 이름에 을 입력합니다big. 수준 1에 매핑할 이전 수준 목록에서 붙여넣습니다 six, eight, twelve.
새 수준 2의 이름에 을 입력합니다small. 매핑된 값의 경우 을 붙여넣습니다 two, four.
실험을 실행합니다.
결과를 시각화 하면 원래 데이터 세트에 고려하지 않은 일부 홀수 엔진 크기(예: fivethree및 )가 있음을 알게 됩니다. 이러한 모든 항목은 수준에 매핑 other 됩니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

"이름이< "columnname>"인 열이 허용되는 범주에 있지 않습니다." 오류 메시지가 표시될 수 있습니다.

이 메시지는 선택한 열이 범주 열이 아님을 나타냅니다. 메타데이터 편집을 사용하여 열을 Categorical 표시하거나 적절한 범주 값이 포함된 다른 열을 선택할 수 있습니다.

예상 입력

Name	유형	설명
데이터 세트	데이터 테이블	그룹화할 데이터입니다.

모듈 매개 변수

Name	범위	Type	기본값	설명
선택한 열	any	ColumnSelection	CategoricalAll	그룹화할 열을 선택합니다.
출력 모드	any	OutputTo	ResultOnly	범주 레이블을 출력할 방법을 지정합니다.
기본 수준 이름	any	String		일치하는 매핑이 없는 경우 사용할 기본 수준을 나타냅니다.
새 수준 수	목록	그룹 수		값을 그룹화한 후의 수준 수(기본 수준 포함)를 지정합니다.

출력

Name	유형	설명
결과 데이터 집합	데이터 테이블	그룹화된 데이터입니다.

참고 항목

조작
데이터 변환
전체 모듈 목록

다음을 통해 공유