bamboolib

Important

이 기능은 공개 미리 보기 상태입니다.

참고 항목

bamboolib는 Databricks Runtime 11.3 LTS 이상에서 지원됩니다.

bamboolib는 Azure Databricks Notebook 내에서 코드 없는 데이터 분석 및 변환을 허용하는 사용자 인터페이스 구성 요소입니다. bamboolib를 사용하면 사용자가 데이터를 보다 쉽게 작업할 수 있으며 일반적인 데이터 랭글링, 탐색 및 시각화 작업의 속도를 높일 수 있습니다. 사용자가 데이터를 사용하여 이러한 종류의 작업을 완료하면 bamboolib가 백그라운드에서 Python 코드를 자동으로 생성합니다. 사용자는 다른 사용자와 이 코드를 공유할 수 있으며, 공유된 사용자는 자신의 Notebook에서 이 코드를 실행하여 원래 작업을 신속하게 재현할 수 있습니다. 또한 코딩 방법을 알 필요 없이 bamboolib를 사용하여 추가 데이터 작업으로 원래 작업을 확장할 수도 있습니다. 코딩 경험이 있는 사용자는 이 코드를 확장하여 훨씬 더 정교한 결과를 만들 수 있습니다.

bamboolib는 백그라운드에서 IPython 커널에 대한 대화형 HTML 위젯 프레임워크인 ipywidgets를 사용합니다. ipywidgets는 IPython 커널 내에서 실행됩니다.

콘텐츠

요구 사항

  • Databricks Runtime 11.0 이상이 있는 Azure Databricks 클러스터연결된 Azure Databricks Notebook.
  • bamboolib 라이브러리는 Notebook에서 사용할 수 있어야 합니다.
    • 특정 클러스터에만 PyPI에서 라이브러리를 설치하려면 클러스터 라이브러리를 참조 하세요.
    • 이 명령을 사용하여 %pip 특정 Notebook에서만 라이브러리를 사용할 수 있도록 하려면 Notebook 범위 Python 라이브러리를 참조 하세요.

빠른 시작

  1. Python Notebook을 만듭니다.

  2. 요구 사항을 충족하는 클러스터에 Notebook을 연결합니다.

  3. Notebook의 첫 번째 에서 다음 코드를 입력한 후 셀을 실행합니다. bamboolib이 작업 영역 또는 클러스터에 이미 설치된 경우 이 단계를 건너뛰어도 됩니다.

    %pip install bamboolib
    
  4. Notebook의 두 번째 셀에서 다음 코드를 입력한 후 셀을 실행합니다.

    import bamboolib as bam
    
  5. Notebook의 세 번째 셀에서 다음 코드를 입력한 후 셀을 실행합니다.

    bam
    

    참고 항목

    또는 기존 pandas DataFrame을 인쇄하여 해당 특정 DataFrame에 사용할 bamboolib를 표시할 수 있습니다.

  6. 주요 작업을 계속 진행합니다.

연습

bamboolib를 단독으로 사용하거나 기존 pandas DataFrame과 함께 사용할 수 있습니다.

bamboolib를 단독으로 사용

이 연습에서는 bamboolib를 사용하여 예제 판매 데이터 세트의 내용을 Notebook에 표시합니다. 그런 다음, bamboolib에서 자동으로 생성하는 관련 Notebook 코드 중 일부로 실험합니다. 판매 데이터 세트 내용의 복사본을 쿼리하고 정렬하여 완료합니다.

  1. Python Notebook을 만듭니다.

  2. 요구 사항을 충족하는 클러스터에 Notebook을 연결합니다.

  3. Notebook의 첫 번째 에서 다음 코드를 입력한 후 셀을 실행합니다. bamboolib이 작업 영역 또는 클러스터에 이미 설치된 경우 이 단계를 건너뛰어도 됩니다.

    %pip install bamboolib
    
  4. Notebook의 두 번째 셀에서 다음 코드를 입력한 후 셀을 실행합니다.

    import bamboolib as bam
    
  5. Notebook의 세 번째 셀에서 다음 코드를 입력한 후 셀을 실행합니다.

    bam
    
  6. 더미 데이터 로드를 클릭합니다.

  7. 더미 데이터 로드 창의 bamboolib 테스트를 위해 더미 데이터 세트 로드에서 판매 데이터 세트를 선택합니다.

  8. 실행을 클릭합니다.

  9. item_typeBaby Food인 모든 행을 표시합니다.

    1. 작업 검색 목록에서 행 필터링을 선택합니다.
    2. 행 필터링 창의 선택 목록(위치 위)에서 행 선택을 선택합니다.
    3. 위치 아래 목록에서 item_type을 선택합니다.
    4. item_type 옆에 있는 선택 목록에서 값이 있음을 선택합니다.
    5. 값이 있음 옆에 있는 값 선택 상자에서 Baby Food를 선택합니다.
    6. 실행을 클릭합니다.
  10. 이 쿼리에 대해 자동으로 생성된 Python 코드를 복사합니다.

    1. 데이터 미리 보기 아래에서 코드 복사를 클릭합니다.
  11. 코드를 붙여넣고 수정합니다.

    1. Notebook의 네 번째 셀에 복사한 코드를 붙여넣습니다. 다음과 같이 표시되어야 합니다.

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. 이 코드에 추가하여 order_prioC인 행만 표시하도록 한 다음, 셀을 실행합니다.

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    이 코드를 작성하는 대신 세 번째 셀에 bamboolib를 사용하는 간단한 방식으로 order_prioC인 행만 표시하도록 할 수도 있습니다. 이 단계는 bamboolib가 이전에 자동으로 생성한 코드를 확장하는 예제입니다.

  12. 행을 region별로 오름차순으로 정렬합니다.

    1. 네 번째 셀 내의 위젯에 있는 작업 검색 목록에서 행 정렬을 선택합니다.
    2. 열 정렬 창의 열 선택 목록에서 region을 선택합니다.
    3. region 옆에 있는 목록에서 오름차순(A-Z)을 선택합니다.
    4. 실행을 클릭합니다.

    참고 항목

    이는 다음 코드를 직접 작성하는 것과 같습니다.

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    세 번째 셀에서 bamboolib을 사용하여 행을 region별로 오름차순으로 정렬할 수도 있습니다. 이 단계에서는 bamboolib를 사용하여 작성한 코드를 확장하는 방법을 보여줍니다. bamboolib를 사용하면 백그라운드에서 자동으로 추가 코드를 생성하므로 이미 확장된 코드를 추가로 확장할 수 있습니다.

  13. 주요 작업을 계속 진행합니다.

기존 DataFrame에서 bamboolib 사용

이 연습에서는 bamboolib를 사용하여 pandas DataFrame의 내용을 Notebook에 표시합니다. 이 DataFrame에는 예제 판매 데이터 세트의 복사본이 포함되어 있습니다. 그런 다음, bamboolib에서 자동으로 생성하는 관련 Notebook 코드 중 일부로 실험합니다. DataFrame의 일부 내용을 쿼리하고 정렬하여 완료합니다.

  1. Python Notebook을 만듭니다.

  2. 요구 사항을 충족하는 클러스터에 Notebook을 연결합니다.

  3. Notebook의 첫 번째 에서 다음 코드를 입력한 후 셀을 실행합니다. bamboolib이 작업 영역 또는 클러스터에 이미 설치된 경우 이 단계를 건너뛰어도 됩니다.

    %pip install bamboolib
    
  4. Notebook의 두 번째 셀에서 다음 코드를 입력한 후 셀을 실행합니다.

    import bamboolib as bam
    
  5. Notebook의 세 번째 셀에서 다음 코드를 입력한 후 셀을 실행합니다.

    import pandas as pd
    
    df = pd.read_csv(bam.sales_csv)
    df
    

    bamboolib는 pandas DataFrames만 지원합니다. PySpark DataFrame을 pandas DataFrame으로 변환하려면 PySpark DataFrame에서 toPandas를 호출합니다. Spark DataFrame의 Pandas API를 pandas DataFrame으로 변환하려면 Spark DataFrame의 Pandas API에서 to_pandas를 호출합니다.

  6. bamboolib UI 표시를 클릭합니다.

  7. item_typeBaby Food인 모든 행을 표시합니다.

    1. 작업 검색 목록에서 행 필터링을 선택합니다.
    2. 행 필터링 창의 선택 목록(위치 위)에서 행 선택을 선택합니다.
    3. 위치 아래 목록에서 item_type을 선택합니다.
    4. item_type 옆에 있는 선택 목록에서 값이 있음을 선택합니다.
    5. 값이 있음 옆에 있는 값 선택 상자에서 Baby Food를 선택합니다.
    6. 실행을 클릭합니다.
  8. 이 쿼리에 대해 자동으로 생성된 Python 코드를 복사합니다. 이렇게 하려면 데이터 미리 보기 아래에서 코드 복사를 클릭합니다.

  9. 코드를 붙여넣고 수정합니다.

    1. Notebook의 네 번째 셀에 복사한 코드를 붙여넣습니다. 다음과 같이 표시되어야 합니다.

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. 이 코드에 추가하여 order_prioC인 행만 표시하도록 한 다음, 셀을 실행합니다.

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    이 코드를 작성하는 대신 세 번째 셀에 bamboolib를 사용하는 간단한 방식으로 order_prioC인 행만 표시하도록 할 수도 있습니다. 이 단계는 bamboolib가 이전에 자동으로 생성한 코드를 확장하는 예제입니다.

  10. 행을 region별로 오름차순으로 정렬합니다.

    a. 네 번째 셀 내의 위젯에서 행 정렬을 클릭합니다.

    1. 열 정렬 창의 열 선택 목록에서 region을 선택합니다.
    2. region 옆에 있는 목록에서 오름차순(A-Z)을 선택합니다.
    3. 실행을 클릭합니다.

    참고 항목

    이는 다음 코드를 직접 작성하는 것과 같습니다.

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    세 번째 셀에서 bamboolib을 사용하여 행을 region별로 오름차순으로 정렬할 수도 있습니다. 이 단계에서는 bamboolib를 사용하여 작성한 코드를 확장하는 방법을 보여줍니다. bamboolib를 사용하면 백그라운드에서 자동으로 추가 코드를 생성하므로 이미 확장된 코드를 추가로 확장할 수 있습니다.

  11. 주요 작업을 계속 진행합니다.

주요 작업

이 섹션의 내용:

셀에 위젯 추가

시나리오: bamboolib 위젯을 셀에 표시하려고 합니다.

  1. Notebook이 bamboolib에 대한 요구 사항을 충족하는지 확인합니다.

  2. bamboolib이 작업 영역 또는 클러스터에 아직 설치되지 않은 경우 Notebook의 셀(첫 번째 셀이 선호됨)에서 다음 코드를 실행합니다.

    %pip install bamboolib
    
  3. Notebook의 셀(첫 번째 또는 두 번째 셀이 선호됨)에서 다음 코드를 실행합니다.

    import bamboolib as bam
    
  4. 옵션 1: 위젯을 표시할 셀에서 다음 코드를 추가한 다음, 셀을 실행합니다.

    bam
    

    이 위젯은 코드 아래의 셀에 나타납니다.

    또는

    옵션 2: pandas DataFrame에 대한 참조가 포함된 셀에서 DataFrame을 인쇄합니다. 예를 들어 다음 DataFrame 정의가 지정된 경우 셀을 실행합니다.

    import pandas as pd
    from datetime import datetime, date
    
    df = pd.DataFrame({
      'a': [ 1, 2, 3 ],
      'b': [ 2., 3., 4. ],
      'c': [ 'string1', 'string2', 'string3' ],
      'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
      'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })
    
    df
    

    이 위젯은 코드 아래의 셀에 나타납니다.

    bamboolib는 pandas DataFrames만 지원합니다. PySpark DataFrame을 pandas DataFrame으로 변환하려면 PySpark DataFrame에서 toPandas를 호출합니다. Spark DataFrame의 Pandas API를 pandas DataFrame으로 변환하려면 Spark DataFrame의 Pandas API에서 to_pandas를 호출합니다.

위젯 지우기

시나리오: 위젯의 내용을 지운 다음, 새 데이터를 기존 위젯으로 읽어 들이려고 합니다.

옵션 1: 대상 위젯이 포함된 셀 내에서 다음 코드를 실행합니다.

bam

위젯이 Databricks: DBFS에서 CSV 파일 읽기, Databricks: 데이터베이스 테이블 로드더미 데이터 로드 단추를 지운 후 다시 표시합니다.

참고 항목

name 'bam' is not defined 오류가 표시되면 Notebook의 첫 번째 셀에서 다음 코드를 실행한 다음, 다시 시도합니다.

import bamboolib as bam

옵션 2: pandas DataFrame에 대한 참조가 포함된 셀에서 셀을 다시 실행하여 DataFrame을 다시 인쇄합니다. 위젯이 새 데이터를 지운 후 다시 표시합니다.

데이터 로드 작업

이 섹션의 내용:

예제 데이터 세트의 내용을 위젯으로 읽어 들이기

시나리오: 위젯의 기능을 테스트할 수 있도록 몇 가지 예제 데이터(예: 일부 가장 판매 데이터)를 위젯으로 읽어 들이려고 합니다.

  1. 더미 데이터 로드를 클릭합니다.

    참고 항목

    더미 데이터 로드가 표시되지 않는 경우 옵션 1을 사용하여 위젯을 지우고 다시 시도합니다.

  2. 더미 데이터 로드 창의 bamboolib 테스트를 위해 더미 데이터 세트 로드에서 로드할 데이터 세트의 이름을 선택합니다.

  3. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.

  4. 실행을 클릭합니다.

    위젯은 데이터 세트의 내용을 표시합니다.

현재 위젯을 전환하여 다른 예제 데이터 세트의 내용을 표시할 수 있습니다.

  1. 현재 위젯에서 더미 데이터 로드 탭을 클릭합니다.
  2. 위의 단계에 따라 다른 예제 데이터 세트의 내용을 위젯으로 읽어 들입니다.

CSV 파일의 내용을 위젯으로 읽어 들이기

시나리오: Azure Databricks 작업 영역 내의 CSV 파일 내용을 위젯으로 읽어 들이려고 합니다.

  1. Databricks: DBFS에서 CSV 파일 읽기를 클릭합니다.

    참고 항목

    Databricks: DBFS에서 CSV 파일 읽기가 표시되지 않는 경우 옵션 1을 사용하여 위젯을 지우고 다시 시도합니다.

  2. DBFS에서 CSV 읽기 창에서 대상 CSV 파일이 포함된 위치를 찾아봅니다.

  3. 대상 CSV 파일을 선택합니다.

  4. 데이터 프레임 이름의 경우 CSV 파일 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.

  5. CSV 값 구분 기호의 경우 CSV 파일의 값을 구분하는 문자를 입력하거나 기본 구분 기호인 ,(쉼표) 문자를 그대로 둡니다.

  6. 소수점 구분 기호의 경우 CSV 파일의 소수점을 구분하는 문자를 입력하거나 기본 구분 기호인 .(점) 문자를 그대로 둡니다.

  7. 행 제한: 첫 번째 N개 행 읽기 - 제한이 없는 경우 비워 둠의 경우 위젯으로 읽어 들일 최대 행 수를 입력하거나, 기본 행 수인 100000을 그대로 두거나, 행 제한이 없음을 지정하기 위해 이 상자를 비워 둡니다.

  8. CSV 파일 열기를 클릭합니다.

    위젯은 지정된 설정에 따라 CSV 파일의 내용을 표시합니다.

현재 위젯을 전환하여 다른 CSV 파일의 내용을 표시할 수 있습니다.

  1. 현재 위젯에서 DBFS에서 CSV 읽기 탭을 클릭합니다.
  2. 위의 단계에 따라 다른 CSV 파일의 내용을 위젯으로 읽어 들입니다.

데이터베이스 테이블의 내용을 위젯으로 읽어 들이기

시나리오: Azure Databricks 작업 영역 내의 데이터베이스 테이블 내용을 위젯으로 읽어 들이려고 합니다.

  1. Databricks: 데이터베이스 테이블 로드를 클릭합니다.

    참고 항목

    Databricks: 데이터베이스 테이블 로드가 표시되지 않으면 옵션 1을 사용하여 위젯을 지우고 다시 시도합니다.

  2. Databricks: 데이터베이스 테이블 로드 창에서 데이터베이스 - 기본 데이터베이스의 경우 비워 두기에 대상 테이블이 있는 데이터베이스의 이름을 입력하거나 이 상자를 비워 두어 기본 데이터베이스를 지정합니다.

  3. 테이블의 경우 대상 테이블의 이름을 입력합니다.

  4. 행 제한: 첫 번째 N개 행 읽기 - 제한이 없는 경우 비워 둠의 경우 위젯으로 읽어 들일 최대 행 수를 입력하거나, 기본 행 수인 100000을 그대로 두거나, 행 제한이 없음을 지정하기 위해 이 상자를 비워 둡니다.

  5. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.

  6. 실행을 클릭합니다.

    위젯은 지정된 설정에 따라 테이블의 내용을 표시합니다.

현재 위젯을 전환하여 다른 테이블의 내용을 표시할 수 있습니다.

  1. 현재 위젯에서 Databricks: 데이터베이스 테이블 로드 탭을 클릭합니다.
  2. 위의 단계에 따라 다른 테이블의 내용을 위젯으로 읽어 들입니다.

데이터 작업 태그

bamboolib는 50개가 넘는 데이터 작업을 제공합니다. 좀 더 일반적인 시작 데이터 작업 중 일부는 다음과 같습니다.

이 섹션의 내용:

열 선택

시나리오: 이름, 데이터 형식별로 또는 일부 정규식과 일치하는 특정 테이블 열만 표시하려고 합니다. 예를 들어 더미 판매 데이터 세트에서 item_typesales_channel 열만 표시하거나 열 이름에 _date 문자열이 포함된 열만 표시하려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 선택을 입력한 다음, 열 선택 또는 삭제를 선택합니다.
    • 열 선택 또는 삭제를 선택합니다.
  2. 열 선택 또는 삭제 창의 선택 드롭다운 목록에서 선택을 선택합니다.
  3. 대상 열 이름 또는 포함 조건을 선택합니다.
  4. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.
  5. 실행을 클릭합니다.

열 삭제

시나리오: 이름, 데이터 형식별로 또는 일부 정규식과 일치하는 특정 테이블 열을 숨기려고 합니다. 예를 들어 더미 판매 데이터 세트에서 order_prio, order_dateship_date 열을 숨기거나 날짜/시간 값만 포함됨 모든 열을 숨기려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 삭제를 입력한 다음, 열 선택 또는 삭제를 선택합니다.
    • 열 선택 또는 삭제를 선택합니다.
  2. 열 선택 또는 삭제 창의 선택 드롭다운 목록에서 삭제를 선택합니다.
  3. 대상 열 이름 또는 포함 조건을 선택합니다.
  4. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.
  5. 실행을 클릭합니다.

행 필터

시나리오: 일치하거나 누락된 특정 열 값과 같은 조건에 따라 특정 테이블 행을 표시하거나 숨기려고 합니다. 예를 들어 더미 판매 데이터 세트에서 item_type 열 값이 Baby Food로 설정된 행만 표시하려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 필터를 입력한 다음, 행 필터링을 선택합니다.
    • 행 필터링을 선택합니다.
  2. 행 필터링 창의 위치 위에 있는 선택 드롭 다운 목록에서 행 선택 또는 행 삭제를 선택합니다.
  3. 첫 번째 필터 조건을 지정합니다.
  4. 다른 필터 조건을 추가하려면 조건 추가를 클릭하고 다음 필터 조건을 지정합니다. 원하는 대로 반복합니다.
  5. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.
  6. 실행을 클릭합니다.

행 정렬

시나리오: 하나 이상의 열 내 값을 기준으로 테이블 행을 정렬하려고 합니다. 예를 들어 더미 판매 데이터 세트에서 행을 region 열 값을 기준으로 사전순 오름차순으로 표시하려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 정렬을 입력한 다음, 행 정렬을 선택합니다.
    • 행 정렬을 선택합니다.
  2. 열 정렬 창에서 정렬 기준이 될 첫 번째 열과 정렬 순서를 선택합니다.
  3. 다른 정렬 조건을 추가하려면 열 추가를 클릭하고 다음 정렬 조건을 지정합니다. 원하는 대로 반복합니다.
  4. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.
  5. 실행을 클릭합니다.

행 및 열 그룹화 작업

이 섹션의 내용:
단일 집계 함수로 행 및 열 그룹화

시나리오: 계산된 그룹화별로 행 및 열 결과를 표시하고 해당 그룹화에 사용자 지정 이름을 할당하려고 합니다. 예를 들어 더미 판매 데이터 세트에서 동일한 country 값을 포함하는 행 수를 표시하고 계산된 개수 목록의 이름을 country_count로 지정하여 country 열 값으로 행을 그룹화하려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 그룹을 입력한 다음, 그룹화 기준 및 집계(이름 바꾸기 포함)를 선택합니다.
    • 그룹화 기준 및 집계(이름 바꾸기 포함)를 선택합니다.
  2. 그룹화 기준(열 이름 바꾸기 포함) 창에서 그룹화 기준이 될 열과 첫 번째 계산을 선택하고 필요에 따라 계산 열의 이름을 지정합니다.
  3. 다른 계산을 추가하려면 계산 추가를 클릭하고 다음 계산 및 열 이름을 지정합니다. 원하는 대로 반복합니다.
  4. 결과를 저장할 위치를 지정합니다.
  5. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.
  6. 실행을 클릭합니다.
여러 집계 함수로 행 및 열 그룹화

시나리오: 계산된 그룹화별로 행 및 열 결과를 표시하려고 합니다. 예를 들어 더미 판매 데이터 세트에서 행을 region, countrysales_channel 열의 값으로 그룹화하여 동일한 regioncountry 값을 포함하는 행의 수를 sales_channel로 표시하고, total_revenueregion, countrysales_channel의 고유한 조합으로 표시하려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 그룹을 입력한 다음, 그룹화 기준 및 집계(기본값)를 선택합니다.
    • 그룹화 기준 및 집계(기본값)를 선택합니다.
  2. 그룹화 기준(열 이름 바꾸기 포함) 창에서 그룹화 기준이 될 열과 첫 번째 계산을 선택합니다.
  3. 다른 계산을 추가하려면 계산 추가를 클릭하고 다음 계산을 지정합니다. 원하는 대로 반복합니다.
  4. 결과를 저장할 위치를 지정합니다.
  5. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.
  6. 실행을 클릭합니다.

누락된 값이 있는 행 제거

시나리오: 지정된 열에 누락된 값이 있는 행을 제거하려고 합니다. 예를 들어 더미 판매 데이터 세트에서 누락된 item_type 값이 있는 행을 제거하려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 삭제 또는 제거를 입력한 다음, 누락 값 삭제를 선택합니다.
    • 누락 값 삭제를 선택합니다.
  2. 누락 값 삭제 창에서 열을 선택하여 해당 열에 대한 누락된 값이 있는 행을 제거합니다.
  3. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.
  4. 실행을 클릭합니다.

중복 행 제거

시나리오: 지정된 열에 중복 값이 있는 행을 제거하려고 합니다. 예를 들어 더미 판매 데이터 세트에서 서로 정확히 중복되는 행을 제거하려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 삭제 또는 제거를 입력한 다음, 중복 항목 삭제/제거를 선택합니다.
    • 중복 항목 삭제/제거를 선택합니다.
  2. 중복 제거 창에서 열을 선택하여 해당 열에 대해 중복 값이 있는 행을 제거한 다음, 중복 값이 있는 첫 번째 행 또는 마지막 행을 유지할지 여부를 선택합니다.
  3. 데이터 프레임 이름의 경우 테이블 내용의 프로그래매틱 식별자 이름을 DataFrame으로 입력하거나 기본 프로그래매틱 식별자인 df를 그대로 둡니다.
  4. 실행을 클릭합니다.

누락된 값 찾기 및 바꾸기

시나리오: 지정된 열이 있는 모든 행에서 누락된 값을 대체 값으로 바꾸려고 합니다. 예를 들어 더미 판매 데이터 세트에서 item_type 열에 누락된 값이 있는 행을 Unknown Item Type 값으로 바꾸려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 찾기 또는 바꾸기를 입력한 다음, 누락 값 찾기 및 바꾸기를 선택합니다.
    • 누락된 값 찾기 및 바꾸기를 선택합니다.
  2. 누락 값 바꾸기 창에서 누락된 값을 바꿀 열을 선택한 다음, 대체 값을 지정합니다.
  3. 실행을 클릭합니다.

열 수식 만들기

시나리오: 고유한 수식을 사용하는 열을 만들려고 합니다. 예를 들어 더미 판매 데이터 세트에서 total_profit 열 값을 각 행의 units_sold 열 값으로 나눈 결과를 표시하는 profit_per_unit 열을 만들려고 합니다.

  1. 데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
    • 수식을 입력한 다음, 새 열 수식을 선택합니다.
    • 새 열 수식을 선택합니다.
  2. 누락 값 바꾸기 창에서 누락된 값을 바꿀 열을 선택한 다음, 대체 값을 지정합니다.
  3. 실행을 클릭합니다.

데이터 작업 기록 작업

이 섹션의 내용:

위젯에서 수행된 작업 목록 보기

시나리오: 위젯에서 변경된 모든 변경 내용의 목록을 가장 최근의 변경 내용부터 보려고 합니다.

기록을 클릭합니다. 작업 목록이 변환 기록 창에 나타납니다.

위젯에서 가장 최근에 수행된 작업 실행 취소

시나리오: 위젯에서 가장 최근에 변경된 내용을 되돌리려고 합니다.

다음 중 하나를 수행합니다.

  • 반시계 방향 화살표 아이콘을 클릭합니다.
  • 기록을 클릭하고 변환 기록 창에서 마지막 단계 실행 취소를 클릭합니다.

위젯에서 가장 최근에 수행된 작업 다시 실행

시나리오: 위젯에서 가장 최근에 되돌린 내용을 되돌리려고 합니다.

다음 중 하나를 수행합니다.

  • 시계 방향 화살표 아이콘을 클릭합니다.
  • 기록을 클릭하고 변환 기록 창에서 마지막 단계 복구를 클릭합니다.

위젯에서 가장 최근에 수행된 작업 변경

시나리오: 위젯에서 가장 최근에 변경된 내용을 변경하려고 합니다.

  1. 다음 중 하나를 수행합니다.
    • 연필 아이콘을 클릭합니다.
    • 기록을 클릭하고 변환 기록 창에서 마지막 단계 편집을 클릭합니다.
  2. 원하는 변경을 수행한 후 실행을 클릭합니다.

프로그래밍 방식으로 위젯의 현재 상태를 DataFrame으로 다시 만드는 코드 가져오기

시나리오: pandas DataFrame으로 표시되는 현재 위젯의 상태를 프로그래밍 방식으로 다시 만드는 Python 코드를 가져오려고 합니다. 이 통합 문서의 다른 셀 또는 다른 통합 문서에서 이 코드를 실행하려고 합니다.

  1. 코드 가져오기를 클릭합니다.

  2. 코드 내보내기 창에서 코드 복사를 클릭합니다. 코드가 시스템의 클립보드에 복사됩니다.

  3. 코드를 이 통합 문서의 다른 셀에 붙여넣거나 다른 통합 문서에 붙여넣습니다.

  4. 이 pandas DataFrame을 프로그래밍 방식으로 사용하는 추가 코드를 작성한 다음, 셀을 실행합니다. 예를 들어 DataFrame의 콘텐츠를 표시하려면 df를 통해 DataFrame이 프로그래밍 방식으로 표현된다고 가정합니다.

    # Your pasted code here, followed by...
    df
    

제한 사항

자세한 내용은 알려진 제한 사항 Databricks Notebook을 참조하세요.

추가 리소스