Azure Data Factory 또는 Synapse Analytics를 사용하여 웹 테이블에서 데이터 복사

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

이 문서에서는 Azure Data Factory 또는 Synapse Analytics 파이프라인에서 복사 작업을 사용하여 웹 테이블 데이터베이스에서 데이터를 복사하는 방법을 간략하게 설명합니다. 이 문서는 복사 작업에 대한 일반적인 개요를 제공하는 복사 작업 개요 문서를 기반으로 합니다.

이 웹 테이블 커넥터인 REST 커넥터HTTP 커넥터 간의 차이점은 다음과 같습니다.

  • 웹 테이블 커넥터는 HTML 웹 페이지에서 테이블 콘텐츠를 추출합니다.
  • REST 커넥터는 특히 RESTful API에서 데이터를 복사하는 것을 지원합니다.
  • HTTP 커넥터는 일반적으로 모든 HTTP 엔드포인트에서 데이터를 검색합니다(예: 파일 다운로드).

지원되는 기능

이 웹 테이블 커넥터는 다음 기능에 대해 지원됩니다.

지원되는 기능 IR
복사 작업(원본/-)
조회 작업

① Azure 통합 런타임 ② 자체 호스팅 통합 런타임

원본/싱크로 지원되는 데이터 저장소 목록은 지원되는 데이터 저장소 표를 참조하세요.

특히 이 웹 테이블 커넥터는 HTML 페이지에서 테이블 콘텐츠를 추출하도록 지원합니다.

필수 조건

이 웹 테이블 커넥터를 사용하려면 자체 호스팅 Integration Runtime을 설정해야 합니다. 자세한 내용은 자체 호스팅 통합 런타임을 참조하세요.

시작하기

파이프라인에 복사 작업을 수행하려면 다음 도구 또는 SDK 중 하나를 사용하면 됩니다.

UI를 사용하여 Web Table에 연결된 서비스 만들기

다음 단계를 사용하여 Azure Portal UI에서 Web Table에 연결된 서비스를 만듭니다.

  1. Azure Data Factory 또는 Synapse 작업 영역에서 관리 탭으로 이동하여 연결된 서비스를 선택하고 새로 만들기를 클릭합니다.

  2. Web을 검색하고 Web Table 커넥터를 선택합니다.

    Select the Web Table connector.

  3. 서비스 세부 정보를 구성하고, 연결을 테스트하고, 새로운 연결된 서비스를 만듭니다.

    Configure a linked service to Web Table.

커넥터 구성 세부 정보

다음 섹션에서는 웹 테이블 커넥터에 한정된 Data Factory 엔터티를 정의하는 데 사용되는 속성에 대해 자세히 설명합니다.

연결된 서비스 속성

웹 테이블 연결된 서비스에 다음 속성이 지원됩니다.

속성 설명 필수
type 형식 속성은
URL 웹 원본에 대한 URL입니다.
authenticationType 허용되는 값은 Anonymous입니다.
connectVia 데이터 저장소에 연결하는 데 사용할 Integration Runtime입니다. 필수 조건에 설명된 대로 자체 호스팅 Integration Runtime이 필요합니다.

예제:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

데이터 세트 속성

데이터 세트 정의에 사용할 수 있는 섹션 및 속성의 전체 목록은 데이터 세트 문서를 참조하세요. 이 섹션에서는 웹 테이블 데이터 세트에서 지원하는 속성의 목록을 제공합니다.

웹 테이블에서 데이터를 복사하려면 데이터 세트의 type 속성을 WebTable로 설정합니다. 다음과 같은 속성이 지원됩니다.

속성 설명 필수
type 데이터 세트의 type 속성을 WebTable로 설정해야 합니다.
경로 테이블을 포함하는 리소스에 대한 상대 URL입니다. 아니요. 경로를 지정하지 않으면 연결된 서비스 정의에 지정된 URL만 사용됩니다.
인덱스 리소스에 있는 테이블의 인덱스입니다. HTML 페이지에서 테이블의 인덱스를 가져오는 단계는 HTML 페이지에서 테이블의 인덱스 가져오기 섹션을 참조하세요.

예제:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

복사 작업 속성

작업 정의에 사용할 수 있는 섹션 및 속성의 전체 목록은 파이프라인 문서를 참조하세요. 이 섹션에서는 웹 테이블 원본에서 지원하는 속성의 목록을 제공합니다.

웹 테이블을 원본으로

웹 테이블에서 데이터를 복사하려면 복사 작업에서 원본 유형을 WebSource로 설정합니다. 추가적인 속성은 지원되지 않습니다.

예제:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

HTML 페이지에서 테이블의 인덱스 가져오기

데이터 세트 속성에서 구성해야 하는 테이블의 인덱스를 가져오려면 다음과 같은 도구(예: Excel 2016)를 사용할 수 있습니다.

  1. Excel 2016을 시작하고 데이터 탭으로 전환합니다.

  2. 도구 모음에서 새 쿼리를 클릭하고 기타 원본에서를 가리킨 다음 웹에서를 클릭합니다.

    Power Query menu

  3. 웹에서 대화 상자에서 연결된 서비스 JSON에 사용할 URL(예: https://en.wikipedia.org/wiki/)과 데이터 세트에 대해 지정할 경로(예: AFI%27s_100_Years...100_Movies)를 입력하고 확인을 클릭합니다.

    From Web dialog

    이 예제에서 사용되는 URL은 https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies입니다.

  4. 웹 콘텐츠 액세스 대화 상자가 표시된 경우 오른쪽 URL, 인증을 선택하고 연결을 클릭합니다.

    Access Web content dialog box

  5. 트리 뷰에서 테이블 항목을 클릭하여 테이블에서 콘텐츠를 표시한 다음 아래쪽의 편집 단추를 클릭합니다.

    Navigator dialog

  6. 쿼리 편집기 창에서 도구 모음의 고급 편집기 단추를 클릭합니다.

    Advanced Editor button

  7. 고급 편집기 대화 상자에서 "원본" 옆에 있는 숫자가 인덱스입니다.

    Advanced Editor - Index

Excel 2013을 사용하는 경우 Excel용 Microsoft 파워 쿼리 를 사용하여 인덱스를 가져옵니다. 자세한 내용은 웹 페이지에 연결 문서를 참조하세요. Microsoft Power BI for Desktop을 사용하는 경우에도 작업 단계는 비슷합니다.

조회 작업 속성

속성에 대한 자세한 내용을 보려면 조회 작업을 확인하세요.

복사 작업에서 원본 및 싱크로 지원되는 데이터 저장소 목록은 지원되는 데이터 저장소를 참조하세요.