กําหนดค่า Azure Data Lake Storage รุ่น2 ในกิจกรรมการคัดลอก

บทความนี้สรุปวิธีการใช้กิจกรรมการคัดลอกในไปป์ไลน์ข้อมูลเพื่อคัดลอกข้อมูลจากและไปยัง Azure Data Lake Storage รุ่น2

รูปแบบที่ได้รับการสนับสนุน

Azure Data Lake Storage รุ่น2 สนับสนุนรูปแบบไฟล์ต่อไปนี้ ดูแต่ละบทความสําหรับการตั้งค่าตามรูปแบบ

การกําหนดค่าที่ได้รับการสนับสนุน

สําหรับการกําหนดค่าของแต่ละแท็บภายใต้กิจกรรมการคัดลอก ให้ไปที่ส่วนต่อไปนี้ตามลําดับ

ทั่วไป

โปรดดูคําแนะนําการตั้งค่าทั่วไปเพื่อกําหนดค่าแท็บ การตั้งค่าทั่วไป

ทรัพยากร

คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับ Azure Data Lake Storage รุ่น2 ภายใต้แท็บ แหล่งข้อมูล ของกิจกรรมการคัดลอก

Screenshot showing source tab.

จําเป็นต้องมีคุณสมบัติต่อไปนี้:

  • ชนิดของที่เก็บข้อมูล: เลือก ภายนอก

  • เชื่อมต่อ: เลือกการเชื่อมต่อ Azure Data Lake Storage รุ่น2 จากรายการการเชื่อมต่อ ถ้าไม่มีการเชื่อมต่ออยู่ ให้สร้างการเชื่อมต่อ Azure Data Lake Storage รุ่น2 ใหม่โดยการเลือก ใหม่

  • ประเภทเชื่อมต่อ: เลือก Azure Data Lake Storage รุ่น2

  • ประเภทพาธของไฟล์: คุณสามารถเลือกพาธของไฟล์ เส้นทางไฟล์ไวด์การ์ด หรือรายการไฟล์เป็นประเภทพาธของไฟล์ของคุณได้ การกําหนดค่าของแต่ละการตั้งค่าเหล่านี้คือ:

    • พาธของไฟล์: หากคุณเลือกประเภทนี้ข้อมูลสามารถคัดลอกจากระบบไฟล์หรือพาธไฟล์ที่ระบุก่อนหน้านี้ได้

    • เส้นทางไฟล์อักขระตัวแทน: ถ้าคุณเลือกชนิดนี้ ให้ระบุระบบไฟล์และเส้นทางอักขระตัวแทน

      • ระบบไฟล์: ชื่อระบบไฟล์ Azure Data Lake Storage รุ่น2

      • เส้นทางอักขระตัวแทน: ระบุโฟลเดอร์หรือเส้นทางของแฟ้มด้วยอักขระตัวแทนภายใต้ระบบแฟ้มที่ระบุเพื่อกรองโฟลเดอร์หรือแฟ้มต้นทาง

        สัญลักษณ์ตัวแทนที่อนุญาตคือ: * (ตรงกับอักขระศูนย์หรือมากกว่า) และ ? (ตรงกับศูนย์หรืออักขระเดี่ยว) ใช้ ^ เพื่อหลีกเลี่ยงถ้าชื่อโฟลเดอร์ของคุณมีอักขระตัวแทนหรืออักขระหลีกอยู่ภายใน สําหรับตัวอย่างเพิ่มเติม ไปที่ ตัวอย่างตัวกรองโฟลเดอร์และไฟล์

        Screenshot showing wildcard file path.

        • เส้นทางโฟลเดอร์อักขระตัวแทน: ระบุเส้นทางโฟลเดอร์ด้วยอักขระตัวแทนภายใต้ระบบแฟ้มที่ระบุเพื่อกรองโฟลเดอร์ต้นทาง

        • ชื่อแฟ้มอักขระตัวแทน: ระบุชื่อแฟ้มด้วยอักขระตัวแทนภายใต้ระบบแฟ้มที่ระบุ + เส้นทางโฟลเดอร์ (หรือเส้นทางโฟลเดอร์อักขระตัวแทน) เพื่อกรองแฟ้มต้นฉบับ

    • รายการไฟล์: บ่งชี้ว่าคุณต้องการคัดลอกชุดไฟล์ที่กําหนด ระบุ เส้นทาง โฟลเดอร์และ เส้นทางไปยังรายการ ไฟล์เพื่อชี้ไปยังไฟล์ข้อความที่มีรายการของไฟล์ที่คุณต้องการคัดลอกหนึ่งไฟล์ต่อบรรทัดซึ่งเป็นเส้นทางสัมพัทธ์ไปยังเส้นทาง สําหรับตัวอย่างเพิ่มเติม ไปที่ ตัวอย่างรายการไฟล์

      Screenshot showing path to file list.

      • เส้นทางโฟลเดอร์: ระบุเส้นทางไปยังโฟลเดอร์ภายใต้ระบบไฟล์ที่ระบุ ซึ่งจําเป็น

      • เส้นทางไปยังรายการไฟล์: ระบุเส้นทางของไฟล์ข้อความที่มีรายการของไฟล์ที่คุณต้องการคัดลอก

  • แบบเรียกใช้ซ้ํา: ระบุว่ามีการอ่านข้อมูลซ้ําจากโฟลเดอร์ย่อยหรือเฉพาะจากโฟลเดอร์ที่ระบุ โปรดทราบว่า เมื่อ เลือกเรียกใช้ซ้ํา และปลายทางคือที่เก็บตามไฟล์ โฟลเดอร์หรือโฟลเดอร์ย่อยที่ว่างเปล่าจะไม่ถูกคัดลอกหรือสร้างขึ้นที่ปลายทาง คุณสมบัตินี้ถูกเลือกตามค่าเริ่มต้นและจะไม่นําไปใช้เมื่อคุณกําหนดค่า เส้นทางไปยังรายการไฟล์

  • รูปแบบไฟล์: เลือกรูปแบบไฟล์ที่ใช้จากรายการดรอปดาวน์ เลือกการตั้งค่าเพื่อกําหนดค่ารูปแบบไฟล์ สําหรับการตั้งค่ารูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด

ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:

  • กรองตามการปรับเปลี่ยนล่าสุด: ไฟล์จะถูกกรองตามวันที่ปรับเปลี่ยนล่าสุด คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์

    • เวลาเริ่มต้น (UTC): ไฟล์จะถูกเลือกถ้าเวลาที่ปรับเปลี่ยนล่าสุดมากกว่าหรือเท่ากับเวลาที่กําหนดไว้

    • เวลาสิ้นสุด (UTC): ไฟล์จะถูกเลือกถ้าเวลาที่ปรับเปลี่ยนล่าสุดน้อยกว่าเวลาที่กําหนดไว้

    เมื่อ เวลาเริ่มต้น (UTC) มีค่าวันที่เวลา แต่ เวลาสิ้นสุด (UTC) เป็น NULL นั่นหมายความว่าไฟล์ที่มีแอตทริบิวต์ที่ปรับเปลี่ยนล่าสุดมากกว่าหรือเท่ากับค่า datetime จะถูกเลือก เมื่อ เวลาสิ้นสุด (UTC) มีค่าวันที่เวลา แต่ เวลาเริ่มต้น (UTC) เป็น NULL ซึ่งหมายความว่าไฟล์ที่มีแอตทริบิวต์ที่ปรับเปลี่ยนล่าสุดน้อยกว่าค่าวันที่เวลาจะถูกเลือก คุณสมบัติอาจเป็น NULL ซึ่งหมายความว่าไม่มีตัวกรองแอตทริบิวต์ของไฟล์ที่จะนําไปใช้กับข้อมูล

  • เปิดใช้งานการค้นพบพาร์ติชัน: ระบุว่าจะแยกวิเคราะห์พาร์ติชันจากเส้นทางไฟล์และเพิ่มพาร์ติชันเป็นคอลัมน์ต้นทางเพิ่มเติมหรือไม่ ซึ่งไม่ได้ถูกเลือกตามค่าเริ่มต้นและไม่ได้รับการสนับสนุนเมื่อคุณใช้รูปแบบไฟล์ไบนารี

    • เส้นทางรากของพาร์ติชัน: เมื่อเปิดใช้งานการค้นพบพาร์ติชัน ให้ระบุเส้นทางรากสัมบูรณ์เพื่ออ่านโฟลเดอร์ที่มีพาร์ติชันเป็นคอลัมน์ข้อมูล

      ถ้าไม่ได้ระบุไว้ ตามค่าเริ่มต้น

      • เมื่อคุณใช้พาธไฟล์หรือรายการของไฟล์ในแหล่งที่มา พาธรูทของพาร์ติชันคือเส้นทางที่คุณกําหนดค่า
      • เมื่อคุณใช้ตัวกรองโฟลเดอร์อักขระตัวแทน เส้นทางรากของพาร์ติชันคือเส้นทางย่อยก่อนอักขระตัวแทนแรก

      ตัวอย่างเช่น สมมติว่าคุณกําหนดค่าเส้นทางเป็น root/folder/year=2020/month=08/day=27:

      • ถ้าคุณระบุเส้นทางรากของพาร์ติชันเป็น root/folder/year=2020กิจกรรมการคัดลอกจะสร้างสองคอลัมน์เพิ่มเติมเดือนและวันด้วยค่า "08" และ "27" ตามลําดับ นอกเหนือจากคอลัมน์ภายในไฟล์
      • ถ้าไม่ได้ระบุเส้นทางรากของพาร์ติชัน จะไม่มีการสร้างคอลัมน์พิเศษ

    Screenshot showing partition discovery.

  • การเชื่อมต่อพร้อมกันสูงสุด: คุณสมบัตินี้ระบุขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น

  • คอลัมน์เพิ่มเติม: เพิ่มคอลัมน์ข้อมูลเพิ่มเติมเพื่อจัดเก็บเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับ นิพจน์ได้รับการสนับสนุนสําหรับอย่างหลัง

ปลายทาง

คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับ Azure Data Lake Storage รุ่น2 ภายใต้แท็บ ปลายทาง ของกิจกรรมการคัดลอก

Screenshot showing destination tab.

จําเป็นต้องมีคุณสมบัติต่อไปนี้:

  • ชนิดของที่เก็บข้อมูล: เลือก ภายนอก
  • เชื่อมต่อ: เลือกการเชื่อมต่อ Azure Data Lake Storage รุ่น2 จากรายการการเชื่อมต่อ ถ้าไม่มีการเชื่อมต่ออยู่ ให้สร้างการเชื่อมต่อ Azure Data Lake Storage รุ่น2 ใหม่โดยการเลือก ใหม่
  • ประเภทเชื่อมต่อ: เลือก Azure Data Lake Storage รุ่น2
  • พาธของไฟล์: เลือก เรียกดู เพื่อเลือกไฟล์ที่คุณต้องการคัดลอกหรือกรอกข้อมูลในเส้นทางด้วยตนเอง
  • รูปแบบไฟล์: เลือกรูปแบบไฟล์ที่ใช้จากรายการดรอปดาวน์ เลือกการตั้งค่าเพื่อกําหนดค่ารูปแบบไฟล์ สําหรับการตั้งค่ารูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด

ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:

  • คัดลอกลักษณะการทํางาน: กําหนดลักษณะการทํางานของการคัดลอกเมื่อแหล่งข้อมูลคือไฟล์จากที่เก็บข้อมูลตามไฟล์ คุณสามารถเลือกลักษณะการทํางานจากรายการดรอปดาวน์

    Screenshot showing copy behavior.

    • ลําดับชั้นลดรูปแบบโครงสร้าง: ไฟล์ทั้งหมดจากโฟลเดอร์ต้นทางอยู่ในระดับแรกของโฟลเดอร์ปลายทาง ไฟล์ปลายทางมีชื่อที่สร้างขึ้นโดยอัตโนมัติ
    • ผสานไฟล์: ผสานไฟล์ทั้งหมดจากโฟลเดอร์ต้นทางไปยังไฟล์เดียว ถ้ามีการระบุชื่อไฟล์ ชื่อไฟล์ที่ผสานคือชื่อที่ระบุ มิฉะนั้น จะเป็นชื่อไฟล์ที่สร้างโดยอัตโนมัติ
    • รักษาลําดับชั้น: รักษาลําดับชั้นไฟล์ในโฟลเดอร์เป้าหมาย เส้นทางสัมพัทธ์ของไฟล์ต้นทางไปยังโฟลเดอร์ต้นทางจะเหมือนกับเส้นทางสัมพัทธ์ของไฟล์เป้าหมายไปยังโฟลเดอร์เป้าหมาย
  • การเชื่อมต่อพร้อมกันสูงสุด: ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างไปยังที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น

  • ขนาดบล็อก (เมกะไบต์): ระบุขนาดบล็อกในเมกะไบต์ใช้ในการเขียนข้อมูลเพื่อ Azure Data Lake Storage รุ่น2 สําหรับข้อมูลเพิ่มเติม ดูบล็อก Blobs ค่าที่อนุญาตอยู่ระหว่าง 4 เมกะไบต์ ถึง 100 เมกะไบต์

    ตามค่าเริ่มต้น ขนาดบล็อกจะถูกกําหนดโดยอัตโนมัติโดยยึดตามชนิดและข้อมูลของคุณจัดเก็บต้นทาง สําหรับสําเนาที่ไม่ใช่ไบนารีลงใน Azure Data Lake Storage รุ่น2 ขนาดบล็อกเริ่มต้นคือ 100 เมกะไบต์ เพื่อให้พอดีกับข้อมูลสูงสุดโดยประมาณ 4.75 TB อาจไม่เหมาะสมเมื่อข้อมูลของคุณไม่ใหญ่ คุณสามารถระบุขนาดบล็อกได้อย่างชัดเจนในขณะที่ตรวจสอบให้แน่ใจว่าขนาดบล็อก (เมกะไบต์)*50000 ใหญ่พอที่จะจัดเก็บข้อมูลมิฉะนั้นการเรียกใช้กิจกรรมจะล้มเหลว

  • เมตาดาต้า: ตั้งค่าเมตาดาต้าแบบกําหนดเองเมื่อคัดลอกไปยังปลายทาง แต่ละออบเจ็กต์ภายใต้ metadata อาร์เรย์ แสดงถึงคอลัมน์เพิ่มเติม กําหนด name ชื่อคีย์เมตาดาต้า และ value ระบุค่าข้อมูลของคีย์นั้น หากใช้คุณลักษณะแอตทริบิวต์การสงวนไว้ เมตาดาต้าที่ระบุจะรวม/เขียนทับด้วยเมตาดาต้าของไฟล์ต้นฉบับ

    ค่าข้อมูลที่อนุญาตคือ:

    • $$LASTMODIFIED: ตัวแปรที่สงวนไว้จะระบุเพื่อจัดเก็บเวลาที่ปรับเปลี่ยนล่าสุดของไฟล์ต้นฉบับ นําไปใช้กับแหล่งข้อมูลตามไฟล์ที่มีรูปแบบไบนารีเท่านั้น
    • Expression
    • ค่าคงที่

    Screenshot showing metadata.

การแม็ป

สําหรับ การกําหนดค่าแท็บการแมป ไปที่ กําหนดค่าการแมปของคุณภายใต้แท็บการแมป ถ้าคุณเลือกไบนารีเป็นรูปแบบไฟล์ของคุณ การแมปไม่ได้รับการรองรับ

การตั้งค่า

สําหรับการกําหนดค่าแท็บการตั้งค่า ให้ไปที่ กําหนดการตั้งค่าอื่น ๆ ของคุณภายใต้แท็บ การตั้งค่า

ข้อมูลสรุปของตาราง

ตารางต่อไปนี้ประกอบด้วยข้อมูลเพิ่มเติมเกี่ยวกับกิจกรรมการคัดลอกใน Azure Data Lake Storage รุ่น2

ข้อมูลต้นทาง

ชื่อ รายละเอียด ค่า ต้องมี คุณสมบัติสคริปต์ JSON
ชนิดของที่เก็บข้อมูล ประเภทที่เก็บข้อมูลของคุณ ภายนอก ใช่ /
เชื่อมต่อชั่น การเชื่อมต่อของคุณไปยังที่เก็บข้อมูลต้นทาง <การเชื่อมต่อ Azure Data Lake Storage รุ่น2 ของคุณ> ใช่ เชื่อม ต่อ
ชนิดเชื่อมต่อ ชนิดการเชื่อมต่อของคุณ เลือก Azure Data Lake Storage รุ่น2 Azure Data Lake Storage รุ่น2 ใช่ /
ชนิดพาธของไฟล์ ชนิดพาธของไฟล์ที่คุณต้องการใช้ • พาธของไฟล์
• เส้นทางโฟลเดอร์อักขระตัวแทน ชื่อแฟ้มอักขระตัวแทน
•รายการไฟล์
ใช่ • folderPath, fileName, fileSystem
• wildcardFolderPath, wildcardFileName, fileSystem
• folderPath, fileName, fileListPath
เรียกใช้ซ้ํา ระบุว่าข้อมูลถูกอ่านซ้ําจากโฟลเดอร์ย่อย หรืออ่านจากโฟลเดอร์ที่ระบุเท่านั้น โปรดทราบว่า เมื่อ เลือกเรียกใช้ซ้ํา และปลายทางคือที่เก็บตามไฟล์ โฟลเดอร์หรือโฟลเดอร์ย่อยที่ว่างเปล่าจะไม่ถูกคัดลอกหรือสร้างขึ้นที่ปลายทาง คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่า เส้นทางไปยังรายการไฟล์ เลือกแล้ว (ค่าเริ่มต้น) หรือยกเลิกการเลือก ไม่ เกิด ซ้ำ
กรองตามการปรับเปลี่ยนล่าสุด ไฟล์ที่มีเวลาที่ปรับเปลี่ยนครั้งล่าสุดในช่วง [เวลาเริ่มต้น เวลาสิ้นสุด) จะถูกกรองสําหรับการประมวลผลเพิ่มเติม เวลาจะถูกนําไปใช้กับโซนเวลา UTC ในรูปแบบของyyyy-mm-ddThh:mm:ss.fffZ สามารถข้ามคุณสมบัติเหล่านี้ได้ ซึ่งหมายความว่าจะไม่มีการใช้ตัวกรองแอตทริบิวต์ของไฟล์ คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์ datetime ไม่ modifiedDatetimeStart
modifiedDatetimeEnd
เปิดใช้งานการค้นพบพาร์ติชัน ระบุว่าจะแยกวิเคราะห์พาร์ติชันจากเส้นทางไฟล์และเพิ่มพาร์ติชันเหล่านั้นเป็นคอลัมน์ต้นทางเพิ่มเติมหรือไม่ เลือกหรือไม่เลือก (ค่าเริ่มต้น) ไม่ enablePartitionDiscovery:
จริง หรือ เท็จ (ค่าเริ่มต้น)
เส้นทางรากของพาร์ติชัน เมื่อเปิดใช้งานการค้นพบพาร์ติชัน ให้ระบุเส้นทางรากสัมบูรณ์เพื่ออ่านโฟลเดอร์ที่มีพาร์ติชันเป็นคอลัมน์ข้อมูล < เส้นทางรากของพาร์ติชันของคุณ > ไม่ partitionRootPath
การเชื่อมต่อพร้อมกันสูงสุด ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น <การเชื่อมต่อพร้อมกันสูงสุด> ไม่ maxConcurrent เชื่อมต่อ ions
คอลัมน์เพิ่มเติม เพิ่มคอลัมน์ข้อมูลเพิ่มเติมเพื่อจัดเก็บเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับ นิพจน์ได้รับการสนับสนุนสําหรับอย่างหลัง • ชื่อ
•ค่า
ไม่ additionalColumns:
•ชื่อ
•ค่า

ข้อมูลปลายทาง

ชื่อ รายละเอียด ค่า ต้องมี คุณสมบัติสคริปต์ JSON
ชนิดของที่เก็บข้อมูล ประเภทที่เก็บข้อมูลของคุณ ภายนอก ใช่ /
เชื่อมต่อชั่น การเชื่อมต่อของคุณไปยังที่เก็บข้อมูลปลายทาง <การเชื่อมต่อ Azure Data Lake Storage รุ่น2 ของคุณ> ใช่ เชื่อม ต่อ
ชนิดเชื่อมต่อ ชนิดการเชื่อมต่อของคุณ เลือก Azure Data Lake Storage รุ่น2 Azure Data Lake Storage รุ่น2 ใช่ /
พาธของไฟล์ เส้นทางไฟล์ของข้อมูลปลายทางของคุณ < เส้นทางของไฟล์ของคุณ > ใช่ folderPath, fileName, fileSystem
คัดลอกลักษณะการทํางาน กําหนดลักษณะการทํางานของสําเนาเมื่อแหล่งข้อมูลคือไฟล์จากที่เก็บข้อมูลตามไฟล์ •ลําดับชั้นลดรูปแบบโครงสร้าง
• ผสานไฟล์
•รักษาลําดับชั้น
ไม่ copyBehavior:
•FlattenHierarchy
• MergeFiles
•สงวนลําดับชั้น
การเชื่อมต่อพร้อมกันสูงสุด ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น <การเชื่อมต่อพร้อมกันสูงสุด> ไม่ maxConcurrent เชื่อมต่อ ions
ขนาดบล็อก (เมกะไบต์) ระบุขนาดบล็อกในเมกะไบต์เมื่อเขียนข้อมูลเพื่อ Azure Data Lake Storage รุ่น2 ค่าที่อนุญาตอยู่ระหว่าง 4 เมกะไบต์ ถึง 100 เมกะไบต์ <ขนาดบล็อก> ไม่ blockSizeIn เมกะไบต์
เมตาดาต้า ตั้งค่าเมตาดาต้าแบบกําหนดเองเมื่อคัดลอกไปยังปลายทาง $$LASTMODIFIED
•นิพจน์
• ค่าคงที่
ไม่ ข้อมูล เม ตา