กําหนดค่า Azure Data Lake Storage รุ่น2 ในกิจกรรมการคัดลอก
บทความนี้สรุปวิธีการใช้กิจกรรมการคัดลอกในไปป์ไลน์ข้อมูลเพื่อคัดลอกข้อมูลจากและไปยัง Azure Data Lake Storage รุ่น2
รูปแบบที่ได้รับการสนับสนุน
Azure Data Lake Storage รุ่น2 สนับสนุนรูปแบบไฟล์ต่อไปนี้ ดูแต่ละบทความสําหรับการตั้งค่าตามรูปแบบ
- รูปแบบ Avro
- รูปแบบไบนารี
- รูปแบบข้อความที่คั่นด้วยตัวคั่น
- รูปแบบ Excel
- รูปแบบ JSON
- รูปแบบ ORC
- รูปแบบ Parquet
- รูปแบบ XML
การกําหนดค่าที่ได้รับการสนับสนุน
สําหรับการกําหนดค่าของแต่ละแท็บภายใต้กิจกรรมการคัดลอก ให้ไปที่ส่วนต่อไปนี้ตามลําดับ
ทั่วไป
โปรดดูคําแนะนําการตั้งค่าทั่วไปเพื่อกําหนดค่าแท็บ การตั้งค่าทั่วไป
ทรัพยากร
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับ Azure Data Lake Storage รุ่น2 ภายใต้แท็บ แหล่งข้อมูล ของกิจกรรมการคัดลอก
จําเป็นต้องมีคุณสมบัติต่อไปนี้:
ชนิดของที่เก็บข้อมูล: เลือก ภายนอก
เชื่อมต่อ: เลือกการเชื่อมต่อ Azure Data Lake Storage รุ่น2 จากรายการการเชื่อมต่อ ถ้าไม่มีการเชื่อมต่ออยู่ ให้สร้างการเชื่อมต่อ Azure Data Lake Storage รุ่น2 ใหม่โดยการเลือก ใหม่
ประเภทเชื่อมต่อ: เลือก Azure Data Lake Storage รุ่น2
ประเภทพาธของไฟล์: คุณสามารถเลือกพาธของไฟล์ เส้นทางไฟล์ไวด์การ์ด หรือรายการไฟล์เป็นประเภทพาธของไฟล์ของคุณได้ การกําหนดค่าของแต่ละการตั้งค่าเหล่านี้คือ:
พาธของไฟล์: หากคุณเลือกประเภทนี้ข้อมูลสามารถคัดลอกจากระบบไฟล์หรือพาธไฟล์ที่ระบุก่อนหน้านี้ได้
เส้นทางไฟล์อักขระตัวแทน: ถ้าคุณเลือกชนิดนี้ ให้ระบุระบบไฟล์และเส้นทางอักขระตัวแทน
ระบบไฟล์: ชื่อระบบไฟล์ Azure Data Lake Storage รุ่น2
เส้นทางอักขระตัวแทน: ระบุโฟลเดอร์หรือเส้นทางของแฟ้มด้วยอักขระตัวแทนภายใต้ระบบแฟ้มที่ระบุเพื่อกรองโฟลเดอร์หรือแฟ้มต้นทาง
สัญลักษณ์ตัวแทนที่อนุญาตคือ:
*
(ตรงกับอักขระศูนย์หรือมากกว่า) และ?
(ตรงกับศูนย์หรืออักขระเดี่ยว) ใช้^
เพื่อหลีกเลี่ยงถ้าชื่อโฟลเดอร์ของคุณมีอักขระตัวแทนหรืออักขระหลีกอยู่ภายใน สําหรับตัวอย่างเพิ่มเติม ไปที่ ตัวอย่างตัวกรองโฟลเดอร์และไฟล์เส้นทางโฟลเดอร์อักขระตัวแทน: ระบุเส้นทางโฟลเดอร์ด้วยอักขระตัวแทนภายใต้ระบบแฟ้มที่ระบุเพื่อกรองโฟลเดอร์ต้นทาง
ชื่อแฟ้มอักขระตัวแทน: ระบุชื่อแฟ้มด้วยอักขระตัวแทนภายใต้ระบบแฟ้มที่ระบุ + เส้นทางโฟลเดอร์ (หรือเส้นทางโฟลเดอร์อักขระตัวแทน) เพื่อกรองแฟ้มต้นฉบับ
รายการไฟล์: บ่งชี้ว่าคุณต้องการคัดลอกชุดไฟล์ที่กําหนด ระบุ เส้นทาง โฟลเดอร์และ เส้นทางไปยังรายการ ไฟล์เพื่อชี้ไปยังไฟล์ข้อความที่มีรายการของไฟล์ที่คุณต้องการคัดลอกหนึ่งไฟล์ต่อบรรทัดซึ่งเป็นเส้นทางสัมพัทธ์ไปยังเส้นทาง สําหรับตัวอย่างเพิ่มเติม ไปที่ ตัวอย่างรายการไฟล์
เส้นทางโฟลเดอร์: ระบุเส้นทางไปยังโฟลเดอร์ภายใต้ระบบไฟล์ที่ระบุ ซึ่งจําเป็น
เส้นทางไปยังรายการไฟล์: ระบุเส้นทางของไฟล์ข้อความที่มีรายการของไฟล์ที่คุณต้องการคัดลอก
แบบเรียกใช้ซ้ํา: ระบุว่ามีการอ่านข้อมูลซ้ําจากโฟลเดอร์ย่อยหรือเฉพาะจากโฟลเดอร์ที่ระบุ โปรดทราบว่า เมื่อ เลือกเรียกใช้ซ้ํา และปลายทางคือที่เก็บตามไฟล์ โฟลเดอร์หรือโฟลเดอร์ย่อยที่ว่างเปล่าจะไม่ถูกคัดลอกหรือสร้างขึ้นที่ปลายทาง คุณสมบัตินี้ถูกเลือกตามค่าเริ่มต้นและจะไม่นําไปใช้เมื่อคุณกําหนดค่า เส้นทางไปยังรายการไฟล์
รูปแบบไฟล์: เลือกรูปแบบไฟล์ที่ใช้จากรายการดรอปดาวน์ เลือกการตั้งค่าเพื่อกําหนดค่ารูปแบบไฟล์ สําหรับการตั้งค่ารูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
กรองตามการปรับเปลี่ยนล่าสุด: ไฟล์จะถูกกรองตามวันที่ปรับเปลี่ยนล่าสุด คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์
เวลาเริ่มต้น (UTC): ไฟล์จะถูกเลือกถ้าเวลาที่ปรับเปลี่ยนล่าสุดมากกว่าหรือเท่ากับเวลาที่กําหนดไว้
เวลาสิ้นสุด (UTC): ไฟล์จะถูกเลือกถ้าเวลาที่ปรับเปลี่ยนล่าสุดน้อยกว่าเวลาที่กําหนดไว้
เมื่อ เวลาเริ่มต้น (UTC) มีค่าวันที่เวลา แต่ เวลาสิ้นสุด (UTC) เป็น NULL นั่นหมายความว่าไฟล์ที่มีแอตทริบิวต์ที่ปรับเปลี่ยนล่าสุดมากกว่าหรือเท่ากับค่า datetime จะถูกเลือก เมื่อ เวลาสิ้นสุด (UTC) มีค่าวันที่เวลา แต่ เวลาเริ่มต้น (UTC) เป็น NULL ซึ่งหมายความว่าไฟล์ที่มีแอตทริบิวต์ที่ปรับเปลี่ยนล่าสุดน้อยกว่าค่าวันที่เวลาจะถูกเลือก คุณสมบัติอาจเป็น NULL ซึ่งหมายความว่าไม่มีตัวกรองแอตทริบิวต์ของไฟล์ที่จะนําไปใช้กับข้อมูล
เปิดใช้งานการค้นพบพาร์ติชัน: ระบุว่าจะแยกวิเคราะห์พาร์ติชันจากเส้นทางไฟล์และเพิ่มพาร์ติชันเป็นคอลัมน์ต้นทางเพิ่มเติมหรือไม่ ซึ่งไม่ได้ถูกเลือกตามค่าเริ่มต้นและไม่ได้รับการสนับสนุนเมื่อคุณใช้รูปแบบไฟล์ไบนารี
เส้นทางรากของพาร์ติชัน: เมื่อเปิดใช้งานการค้นพบพาร์ติชัน ให้ระบุเส้นทางรากสัมบูรณ์เพื่ออ่านโฟลเดอร์ที่มีพาร์ติชันเป็นคอลัมน์ข้อมูล
ถ้าไม่ได้ระบุไว้ ตามค่าเริ่มต้น
- เมื่อคุณใช้พาธไฟล์หรือรายการของไฟล์ในแหล่งที่มา พาธรูทของพาร์ติชันคือเส้นทางที่คุณกําหนดค่า
- เมื่อคุณใช้ตัวกรองโฟลเดอร์อักขระตัวแทน เส้นทางรากของพาร์ติชันคือเส้นทางย่อยก่อนอักขระตัวแทนแรก
ตัวอย่างเช่น สมมติว่าคุณกําหนดค่าเส้นทางเป็น
root/folder/year=2020/month=08/day=27
:- ถ้าคุณระบุเส้นทางรากของพาร์ติชันเป็น
root/folder/year=2020
กิจกรรมการคัดลอกจะสร้างสองคอลัมน์เพิ่มเติมเดือนและวันด้วยค่า "08" และ "27" ตามลําดับ นอกเหนือจากคอลัมน์ภายในไฟล์ - ถ้าไม่ได้ระบุเส้นทางรากของพาร์ติชัน จะไม่มีการสร้างคอลัมน์พิเศษ
การเชื่อมต่อพร้อมกันสูงสุด: คุณสมบัตินี้ระบุขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น
คอลัมน์เพิ่มเติม: เพิ่มคอลัมน์ข้อมูลเพิ่มเติมเพื่อจัดเก็บเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับ นิพจน์ได้รับการสนับสนุนสําหรับอย่างหลัง
ปลายทาง
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับ Azure Data Lake Storage รุ่น2 ภายใต้แท็บ ปลายทาง ของกิจกรรมการคัดลอก
จําเป็นต้องมีคุณสมบัติต่อไปนี้:
- ชนิดของที่เก็บข้อมูล: เลือก ภายนอก
- เชื่อมต่อ: เลือกการเชื่อมต่อ Azure Data Lake Storage รุ่น2 จากรายการการเชื่อมต่อ ถ้าไม่มีการเชื่อมต่ออยู่ ให้สร้างการเชื่อมต่อ Azure Data Lake Storage รุ่น2 ใหม่โดยการเลือก ใหม่
- ประเภทเชื่อมต่อ: เลือก Azure Data Lake Storage รุ่น2
- พาธของไฟล์: เลือก เรียกดู เพื่อเลือกไฟล์ที่คุณต้องการคัดลอกหรือกรอกข้อมูลในเส้นทางด้วยตนเอง
- รูปแบบไฟล์: เลือกรูปแบบไฟล์ที่ใช้จากรายการดรอปดาวน์ เลือกการตั้งค่าเพื่อกําหนดค่ารูปแบบไฟล์ สําหรับการตั้งค่ารูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
คัดลอกลักษณะการทํางาน: กําหนดลักษณะการทํางานของการคัดลอกเมื่อแหล่งข้อมูลคือไฟล์จากที่เก็บข้อมูลตามไฟล์ คุณสามารถเลือกลักษณะการทํางานจากรายการดรอปดาวน์
- ลําดับชั้นลดรูปแบบโครงสร้าง: ไฟล์ทั้งหมดจากโฟลเดอร์ต้นทางอยู่ในระดับแรกของโฟลเดอร์ปลายทาง ไฟล์ปลายทางมีชื่อที่สร้างขึ้นโดยอัตโนมัติ
- ผสานไฟล์: ผสานไฟล์ทั้งหมดจากโฟลเดอร์ต้นทางไปยังไฟล์เดียว ถ้ามีการระบุชื่อไฟล์ ชื่อไฟล์ที่ผสานคือชื่อที่ระบุ มิฉะนั้น จะเป็นชื่อไฟล์ที่สร้างโดยอัตโนมัติ
- รักษาลําดับชั้น: รักษาลําดับชั้นไฟล์ในโฟลเดอร์เป้าหมาย เส้นทางสัมพัทธ์ของไฟล์ต้นทางไปยังโฟลเดอร์ต้นทางจะเหมือนกับเส้นทางสัมพัทธ์ของไฟล์เป้าหมายไปยังโฟลเดอร์เป้าหมาย
การเชื่อมต่อพร้อมกันสูงสุด: ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างไปยังที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น
ขนาดบล็อก (เมกะไบต์): ระบุขนาดบล็อกในเมกะไบต์ใช้ในการเขียนข้อมูลเพื่อ Azure Data Lake Storage รุ่น2 สําหรับข้อมูลเพิ่มเติม ดูบล็อก Blobs ค่าที่อนุญาตอยู่ระหว่าง 4 เมกะไบต์ ถึง 100 เมกะไบต์
ตามค่าเริ่มต้น ขนาดบล็อกจะถูกกําหนดโดยอัตโนมัติโดยยึดตามชนิดและข้อมูลของคุณจัดเก็บต้นทาง สําหรับสําเนาที่ไม่ใช่ไบนารีลงใน Azure Data Lake Storage รุ่น2 ขนาดบล็อกเริ่มต้นคือ 100 เมกะไบต์ เพื่อให้พอดีกับข้อมูลสูงสุดโดยประมาณ 4.75 TB อาจไม่เหมาะสมเมื่อข้อมูลของคุณไม่ใหญ่ คุณสามารถระบุขนาดบล็อกได้อย่างชัดเจนในขณะที่ตรวจสอบให้แน่ใจว่าขนาดบล็อก (เมกะไบต์)*50000 ใหญ่พอที่จะจัดเก็บข้อมูลมิฉะนั้นการเรียกใช้กิจกรรมจะล้มเหลว
เมตาดาต้า: ตั้งค่าเมตาดาต้าแบบกําหนดเองเมื่อคัดลอกไปยังปลายทาง แต่ละออบเจ็กต์ภายใต้
metadata
อาร์เรย์ แสดงถึงคอลัมน์เพิ่มเติม กําหนดname
ชื่อคีย์เมตาดาต้า และvalue
ระบุค่าข้อมูลของคีย์นั้น หากใช้คุณลักษณะแอตทริบิวต์การสงวนไว้ เมตาดาต้าที่ระบุจะรวม/เขียนทับด้วยเมตาดาต้าของไฟล์ต้นฉบับค่าข้อมูลที่อนุญาตคือ:
$$LASTMODIFIED
: ตัวแปรที่สงวนไว้จะระบุเพื่อจัดเก็บเวลาที่ปรับเปลี่ยนล่าสุดของไฟล์ต้นฉบับ นําไปใช้กับแหล่งข้อมูลตามไฟล์ที่มีรูปแบบไบนารีเท่านั้น- Expression
- ค่าคงที่
การแม็ป
สําหรับ การกําหนดค่าแท็บการแมป ไปที่ กําหนดค่าการแมปของคุณภายใต้แท็บการแมป ถ้าคุณเลือกไบนารีเป็นรูปแบบไฟล์ของคุณ การแมปไม่ได้รับการรองรับ
การตั้งค่า
สําหรับการกําหนดค่าแท็บการตั้งค่า ให้ไปที่ กําหนดการตั้งค่าอื่น ๆ ของคุณภายใต้แท็บ การตั้งค่า
ข้อมูลสรุปของตาราง
ตารางต่อไปนี้ประกอบด้วยข้อมูลเพิ่มเติมเกี่ยวกับกิจกรรมการคัดลอกใน Azure Data Lake Storage รุ่น2
ข้อมูลต้นทาง
ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
---|---|---|---|---|
ชนิดของที่เก็บข้อมูล | ประเภทที่เก็บข้อมูลของคุณ | ภายนอก | ใช่ | / |
เชื่อมต่อชั่น | การเชื่อมต่อของคุณไปยังที่เก็บข้อมูลต้นทาง | <การเชื่อมต่อ Azure Data Lake Storage รุ่น2 ของคุณ> | ใช่ | เชื่อม ต่อ |
ชนิดเชื่อมต่อ | ชนิดการเชื่อมต่อของคุณ เลือก Azure Data Lake Storage รุ่น2 | Azure Data Lake Storage รุ่น2 | ใช่ | / |
ชนิดพาธของไฟล์ | ชนิดพาธของไฟล์ที่คุณต้องการใช้ | • พาธของไฟล์ • เส้นทางโฟลเดอร์อักขระตัวแทน ชื่อแฟ้มอักขระตัวแทน •รายการไฟล์ |
ใช่ | • folderPath, fileName, fileSystem • wildcardFolderPath, wildcardFileName, fileSystem • folderPath, fileName, fileListPath |
เรียกใช้ซ้ํา | ระบุว่าข้อมูลถูกอ่านซ้ําจากโฟลเดอร์ย่อย หรืออ่านจากโฟลเดอร์ที่ระบุเท่านั้น โปรดทราบว่า เมื่อ เลือกเรียกใช้ซ้ํา และปลายทางคือที่เก็บตามไฟล์ โฟลเดอร์หรือโฟลเดอร์ย่อยที่ว่างเปล่าจะไม่ถูกคัดลอกหรือสร้างขึ้นที่ปลายทาง คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่า เส้นทางไปยังรายการไฟล์ | เลือกแล้ว (ค่าเริ่มต้น) หรือยกเลิกการเลือก | ไม่ | เกิด ซ้ำ |
กรองตามการปรับเปลี่ยนล่าสุด | ไฟล์ที่มีเวลาที่ปรับเปลี่ยนครั้งล่าสุดในช่วง [เวลาเริ่มต้น เวลาสิ้นสุด) จะถูกกรองสําหรับการประมวลผลเพิ่มเติม เวลาจะถูกนําไปใช้กับโซนเวลา UTC ในรูปแบบของyyyy-mm-ddThh:mm:ss.fffZ สามารถข้ามคุณสมบัติเหล่านี้ได้ ซึ่งหมายความว่าจะไม่มีการใช้ตัวกรองแอตทริบิวต์ของไฟล์ คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์ |
datetime | ไม่ | modifiedDatetimeStart modifiedDatetimeEnd |
เปิดใช้งานการค้นพบพาร์ติชัน | ระบุว่าจะแยกวิเคราะห์พาร์ติชันจากเส้นทางไฟล์และเพิ่มพาร์ติชันเหล่านั้นเป็นคอลัมน์ต้นทางเพิ่มเติมหรือไม่ | เลือกหรือไม่เลือก (ค่าเริ่มต้น) | ไม่ | enablePartitionDiscovery: จริง หรือ เท็จ (ค่าเริ่มต้น) |
เส้นทางรากของพาร์ติชัน | เมื่อเปิดใช้งานการค้นพบพาร์ติชัน ให้ระบุเส้นทางรากสัมบูรณ์เพื่ออ่านโฟลเดอร์ที่มีพาร์ติชันเป็นคอลัมน์ข้อมูล | < เส้นทางรากของพาร์ติชันของคุณ > | ไม่ | partitionRootPath |
การเชื่อมต่อพร้อมกันสูงสุด | ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น | <การเชื่อมต่อพร้อมกันสูงสุด> | ไม่ | maxConcurrent เชื่อมต่อ ions |
คอลัมน์เพิ่มเติม | เพิ่มคอลัมน์ข้อมูลเพิ่มเติมเพื่อจัดเก็บเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับ นิพจน์ได้รับการสนับสนุนสําหรับอย่างหลัง | • ชื่อ •ค่า |
ไม่ | additionalColumns: •ชื่อ •ค่า |
ข้อมูลปลายทาง
ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
---|---|---|---|---|
ชนิดของที่เก็บข้อมูล | ประเภทที่เก็บข้อมูลของคุณ | ภายนอก | ใช่ | / |
เชื่อมต่อชั่น | การเชื่อมต่อของคุณไปยังที่เก็บข้อมูลปลายทาง | <การเชื่อมต่อ Azure Data Lake Storage รุ่น2 ของคุณ> | ใช่ | เชื่อม ต่อ |
ชนิดเชื่อมต่อ | ชนิดการเชื่อมต่อของคุณ เลือก Azure Data Lake Storage รุ่น2 | Azure Data Lake Storage รุ่น2 | ใช่ | / |
พาธของไฟล์ | เส้นทางไฟล์ของข้อมูลปลายทางของคุณ | < เส้นทางของไฟล์ของคุณ > | ใช่ | folderPath, fileName, fileSystem |
คัดลอกลักษณะการทํางาน | กําหนดลักษณะการทํางานของสําเนาเมื่อแหล่งข้อมูลคือไฟล์จากที่เก็บข้อมูลตามไฟล์ | •ลําดับชั้นลดรูปแบบโครงสร้าง • ผสานไฟล์ •รักษาลําดับชั้น |
ไม่ | copyBehavior: •FlattenHierarchy • MergeFiles •สงวนลําดับชั้น |
การเชื่อมต่อพร้อมกันสูงสุด | ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นกับที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น | <การเชื่อมต่อพร้อมกันสูงสุด> | ไม่ | maxConcurrent เชื่อมต่อ ions |
ขนาดบล็อก (เมกะไบต์) | ระบุขนาดบล็อกในเมกะไบต์เมื่อเขียนข้อมูลเพื่อ Azure Data Lake Storage รุ่น2 ค่าที่อนุญาตอยู่ระหว่าง 4 เมกะไบต์ ถึง 100 เมกะไบต์ | <ขนาดบล็อก> | ไม่ | blockSizeIn เมกะไบต์ |
เมตาดาต้า | ตั้งค่าเมตาดาต้าแบบกําหนดเองเมื่อคัดลอกไปยังปลายทาง | • $$LASTMODIFIED •นิพจน์ • ค่าคงที่ |
ไม่ | ข้อมูล เม ตา |