중복 행 제거

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

데이터 집합에서 중복 행 제거

범주: 데이터 변환/조작

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 중복 행 제거 모듈을 사용하여 데이터 세트에서 잠재적 중복 항목을 제거하는 방법을 설명합니다.

예를 들어 데이터가 다음과 같이 표시되는 것으로 가정하고 환자에 대한 여러 레코드를 나타냅니다.

환자 ID 이니셜 성별 나이 입원 시기
1 F.M. M 53 1월
2 F.A.M. M 53 1월
3 F.A.M. M 24 1월
3 F.M. M 24 2월
4 F.M. M 23 2월
F.M. M 23
5 F.A.M. M 53

분명하게도 이 예에는 잠재적으로 중복된 데이터가 있는 열이 여러 개입니다. 실제로 중복되는지 여부는 데이터에 대한 사용자의 지식에 따라 다릅니다.

  • 예를 들어 많은 환자 이름이 동일한 것을 알 수 있습니다. 이름 열을 사용하여 중복 항목을 제거하지 않고 ID 열만 사용합니다. 이렇게 하면 환자 이름이 동일한지 여부에 관계 없이 중복된 ID 값을 가진 행만 필터링됩니다.

  • 또는 ID 필드에서 중복을 허용하도록 결정하고 파일의 다른 조합을 사용하여 이름, 성, 나이 및 성별과 같은 고유한 레코드를 찾을 수 있습니다.

행이 중복되는지 여부에 대한 조건을 설정하려면 로 사용할 단일 열 또는 열 집합을 지정합니다. 모든 키 열의 값이 같으면 두 행이 중복된 것으로 간주됩니다.

모듈을 실행하면 후보 데이터 세트가 만들어지고 지정한 열 집합에서 중복되지 않은 행 집합이 반환됩니다.

중요

원본 데이터 세트는 변경되지 않습니다. 이 모듈은 지정한 조건에 따라 중복 항목을 제외하도록 필터링된 새 데이터 세트를 만듭니다.

중복 행 제거를 사용하는 방법

  1. 실험에 모듈을 추가합니다. 데이터 변환, 조작에서 중복 행 제거 모듈을 찾을 수 있습니다.

  2. 중복 행을 확인하려는 데이터 세트를 연결합니다.

  3. 속성 창의 키 열 선택 영역 필터 식에서 열 선택기 시작을 클릭하여 중복 항목을 식별하는 데 사용할 열을 선택합니다.

    이 컨텍스트에서 는 고유 식별자를 의미하지 않습니다. 열 선택기를 사용하여 선택하는 모든 열은 키 열로 지정됩니다. 선택하지 않은 모든 열은 키가 아닌 열로 간주됩니다. 키로 선택한 열을 조합하면 레코드의 고유성이 결정됩니다. (여러 같음 조인을 사용하는 SQL 문으로 간주합니다.)

    예:

    • "ID가 고유한지 확인하려 하는 경우": ID 열만 선택합니다.
    • "성, 이름 및 ID 조합이 고유한지 확인하려 하는 경우": 세 열을 모두 선택합니다.
  4. 중복 항목을 찾을 때 반환할 행을 표시하려면 첫 번째 중복 행 유지 확인란을 선택합니다.

    • 이를 선택하면 첫 번째 행은 반환되고 다른 행은 삭제됩니다.
    • 이 옵션을 선택 해제하면 마지막 중복 행은 결과에 남고 다른 행은 삭제됩니다.

    누락 값이 처리되는 방법에 대한 자세한 내용은 기술 정보 섹션을 참조하세요.

  5. 실험을 실행하거나 모듈을 클릭하고 선택한 실행을 선택합니다.

  6. 결과를 검토하려면 모듈을 마우스 오른쪽 단추로 클릭하고 결과 데이터 세트를 선택한 다음 시각화를 클릭합니다.

결과를 이해하기 어렵거나 일부 열을 고려 대상에서 제외하려면 데이터 세트에서 열 선택 모듈을 사용하여 열을 제거할 수 있습니다.

이 모듈을 사용하는 방법의 예제를 보려면 Azure AI 갤러리를 참조하세요.

  • 유방암 감지: 중복 행 제거 는 기능 열을 추가한 후 학습 및 테스트 데이터 세트를 통합하는 데 사용됩니다.

  • 동영상 권장 사항: 중복 행 제거를 사용하여 영화당 하나의 사용자 등급 만 있는지 확인합니다.

  • Twitter 감정 분석: 중복 행 제거 는 ID 및 인기 열에만 적용되어 영화당 서수 순위 값이 하나만 있는지 확인합니다. 즉, 영화는 1위와 3위가 될 수 없으므로 사용자가 영화의 순위를 다르게 지정하더라도 단일 값이 사용됩니다.

기술 정보

이 섹션에는 구현 정보, 팁, 질문과 대답이 포함되어 있습니다.

구현 세부 정보

이 모듈은 입력 데이터 집합의 모든 행을 반복하여 작동합니다. 키 열 값의 고유한 조합이 처음으로 나타나는 모든 행을 후보 출력 데이터 세트로 수집합니다.

행 필터링 결과에 관계없이 열 배열 형식은 유지됩니다. 잘못된 값을 필터링하여 배열을 특정 데이터 형식으로 강제 지정할 수는 없으며 열 배열 형식은 열의 모든 값을 기준으로 합니다. 누락 값을 필터링할 때도 제한이 적용됩니다.

데이터 값 비교에는 해시 강제 알고리즘이 사용됩니다.

누락된 값

입력 데이터 세트에 키가 아닌 열 및 키 열에 누락된 값이 있을 수 있습니다. 이러한 규칙은 누락된 값에 적용됩니다.

  • 누락된 값은 키 열에서 유효한 값으로 간주됩니다. 누락된 값은 두 키 모두에 있을 수 있습니다.

  • 스파스 데이터 집합에서 스파스 값의 기본 표시와 같은 경우에만 누락 값이 같은 것으로 간주됩니다.

  • 키 열의 경우 누락 값은 다른 누락 값과는 같지만 누락되지 않은 값과는 같지 않다고 간주합니다.

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 입력 데이터 세트

모듈 매개 변수

Name 범위 Type 기본값 설명
키 열 선택 필터 식 any ColumnSelection 중복 항목을 검색할 때 사용할 키 열을 선택합니다.
첫 번째 중복 행 유지 any 부울 true 중복 집합의 처음 행은 유지하고 나머지는 버리는지 표시합니다. False인 경우, 마지막 중복 행이 유지됩니다.

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 필터링된 데이터 집합입니다.

예외

예외 설명
오류 0003 입력 데이터 집합 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0020 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다.
오류 0017 하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

조작
전체 모듈 목록