Python 또는 R에서 Azure Databricks로 커넥트

이 문서에서는 Databricks ODBC 드라이버를 사용하여 Azure Databricks를 Python 또는 R 언어와 연결하는 방법을 알아봅니다. 연결을 설정하면 Python 또는 R 클라이언트에서 Azure Databricks의 데이터에 액세스할 수 있습니다. 클라이언트를 사용하여 데이터를 자세히 분석할 수도 있습니다.

필수 조건

DSN 설정

DSN(데이터 원본 이름)에는 특정 데이터 원본에 대한 정보가 포함됩니다. 데이터 원본에 연결하려면 ODBC 드라이버에 이 DSN이 필요합니다. 이 섹션에서는 Databricks ODBC 드라이버와 함께 사용하여 Python 또는 R과 같은 클라이언트에서 Azure Databricks에 연결할 수 있는 DSN을 설정합니다.

  1. Azure Databricks 작업 영역에서 Databricks 클러스터로 이동합니다.

    Open Databricks cluster

  2. 구성 탭에서 JDBC/ODBC 탭을 클릭하고 서버 호스트 이름HTTP 경로에 대한 값을 복사합니다. 이 문서의 단계를 완료하려면 이러한 값이 필요합니다.

    Get Databricks configuration

  3. 컴퓨터에서 ODBC 데이터 원본 애플리케이션 64비트 시작

    Launch ODBC Data Sources app

  4. 사용자 DSN 탭에서 추가를 클릭합니다. 새 데이터 원본 만들기 대화 상자에서 Simba Spark ODBC 드라이버를 선택하고 마침을 클릭합니다.

    Add ODBC data source

  5. Simba Spark ODBC 드라이버 대화 상자에서 다음 값을 제공합니다.

    Configure DSN

    다음 표에서는 대화 상자에 제공할 값에 대한 정보를 제공합니다.

    필드
    데이터 원본 이름 데이터 원본의 이름을 제공합니다.
    호스트(들) 서버 호스트 이름에 대한 Databricks 작업 영역에서 복사한 값을 제공합니다.
    포트 443을 입력합니다.
    인증>메커니즘 사용자 이름 및 암호를 선택합니다.
    사용자 이름 토큰을 입력합니다.
    암호 Databricks 작업 영역에서 복사한 토큰 값을 입력합니다.

    DSN 설치 대화 상자에서 다음 추가 단계를 수행합니다.

    • HTTP 옵션을 클릭합니다. 열리는 대화 상자에서 Databricks 작업 영역에서 복사한 HTTP 경로 값을 붙여넣습니다. 확인을 클릭합니다.
    • SSL 옵션을 클릭합니다. 열리는 대화 상자에서 SSL 검사 사용 상자를 선택합니다. 확인을 클릭합니다.
    • 테스트를 클릭하여 Azure Databricks에 대한 연결을 테스트합니다. 확인 을 클릭하여 구성을 저장합니다.
    • ODBC 데이터 원본 관리자 대화 상자에서 확인을 클릭합니다.

이제 DSN을 설정했습니다. 다음 섹션에서는 이 DSN을 사용하여 Python 또는 R에서 Azure Databricks에 연결합니다.

R에서 커넥트

참고 항목

이 섹션에서는 데스크톱에서 실행되는 R Studio 클라이언트를 Azure Databricks와 통합하는 방법에 대한 정보를 제공합니다. Azure Databricks 클러스터 자체에서 R Studio를 사용하는 방법에 대한 지침은 Azure Databricks의 R Studio를 참조 하세요.

이 섹션에서는 R 언어 IDE를 사용하여 Azure Databricks에서 사용할 수 있는 데이터를 참조합니다. 시작하기 전에 컴퓨터에 다음이 설치되어 있어야 합니다.

  • R 언어에 대한 IDE입니다. 이 문서에서는 데스크톱용 RStudio를 사용합니다. R Studio 다운로드에서 설치할 수 있습니다.
  • 데스크톱용 RStudio를 IDE로 사용하는 경우 Microsoft R Client도 설치합니다 https://aka.ms/rclient/.

RStudio를 열고 다음 단계를 수행합니다.

  • RODBC 패키지를 참조합니다. 이렇게 하면 이전에 만든 DSN을 사용하여 Azure Databricks에 연결할 수 있습니다.
  • DSN을 사용하여 연결을 설정합니다.
  • Azure Databricks의 데이터에 대해 SQL 쿼리를 실행합니다. 다음 코드 조각에서 radio_sample_data Azure Databricks에 이미 있는 테이블입니다.
  • 쿼리에서 일부 작업을 수행하여 출력을 확인합니다.

다음 코드 조각에서는 이러한 작업을 수행합니다.

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Python에서 커넥트

이 섹션에서는 Python IDE(예: IDLE)를 사용하여 Azure Databricks에서 사용할 수 있는 데이터를 참조합니다. 시작하기 전에 다음 필수 조건을 완료합니다.

  • 여기에서 Python을 설치합니다. 이 링크에서 Python을 설치하면 IDLE도 설치됩니다.

  • 컴퓨터의 명령 프롬프트에서 pyodbc 패키지를 설치합니다. 다음 명령을 실행합니다.

    pip install pyodbc
    

IDLE을 열고 다음 단계를 수행합니다.

  • pyodbc 패키지를 가져옵니다. 이렇게 하면 이전에 만든 DSN을 사용하여 Azure Databricks에 연결할 수 있습니다.
  • 이전에 만든 DSN을 사용하여 연결을 설정합니다.
  • 만든 연결을 사용하여 SQL 쿼리를 실행합니다. 다음 코드 조각에서 radio_sample_data Azure Databricks에 이미 있는 테이블입니다.
  • 쿼리에 대한 작업을 수행하여 출력을 확인합니다.

다음 코드 조각에서는 이러한 작업을 수행합니다.

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

다음 단계