กําหนดค่าเลคเฮ้าส์ในกิจกรรมการคัดลอก
บทความนี้สรุปวิธีการใช้กิจกรรมการคัดลอกในไปป์ไลน์ข้อมูลเพื่อคัดลอกข้อมูลจากและไปยัง Fabric Lakehouse ตามค่าเริ่มต้น ข้อมูลถูกเขียนลงใน Lakehouse Table ใน V-Order และคุณสามารถไปที่ การปรับตาราง Delta Lake ให้เหมาะสม และ V-Order สําหรับข้อมูลเพิ่มเติม
รูปแบบที่ได้รับการสนับสนุน
เลคเฮ้าส์รองรับรูปแบบไฟล์ต่อไปนี้ ดูแต่ละบทความสําหรับการตั้งค่าตามรูปแบบ
- รูปแบบ Avro
- รูปแบบไบนารี
- รูปแบบข้อความที่คั่นด้วยตัวคั่น
- รูปแบบ Excel
- รูปแบบ JSON
- รูปแบบ ORC
- รูปแบบ Parquet
- รูปแบบ XML
การกําหนดค่าที่ได้รับการสนับสนุน
สําหรับการกําหนดค่าของแต่ละแท็บภายใต้กิจกรรมการคัดลอก ให้ไปที่ส่วนต่อไปนี้ตามลําดับ
ทั่วไป
สําหรับการกําหนดค่าแท็บ ทั่วไป ให้ไปที่ ทั่วไป
แหล่งที่มา
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับเลคเฮ้าส์ภายใต้แท็บ แหล่งข้อมูล ของกิจกรรมการคัดลอก
จําเป็นต้องมีคุณสมบัติต่อไปนี้:
การเชื่อมต่อ: เลือกการเชื่อมต่อของ Lakehouse จากรายการการเชื่อมต่อ หากไม่มีการเชื่อมต่อ ให้สร้างการเชื่อมต่อ Lakehouse ใหม่โดยการเลือก เพิ่มเติม ที่ด้านล่างของรายการการเชื่อมต่อ ถ้าคุณใช้ ใช้เนื้อหา แบบไดนามิกเพื่อระบุเลคเฮ้าส์ของคุณ ให้เพิ่มพารามิเตอร์และระบุ ID ออบเจ็กต์ของ Lakehouse เป็นค่าพารามิเตอร์ หากต้องการรับ ID ออปเจ็กต์ของ Lakehouse ให้เปิดเลคเฮาส์ของคุณในพื้นที่ทํางานและ ID จะอยู่หลัง
/lakehouses/
URL ของคุณโฟลเดอร์ราก: เลือก ตาราง หรือ ไฟล์ซึ่งระบุมุมมองเสมือนของพื้นที่ที่มีการจัดการหรือไม่ถูกจัดการในทะเลสาบของคุณ สําหรับข้อมูลเพิ่มเติม โปรดดูบท นําของเลคเฮ้าส์
ถ้าคุณเลือก ตาราง:
ชื่อตาราง: เลือกตารางที่มีอยู่จากรายการตาราง หรือระบุชื่อตารางเป็นแหล่งข้อมูล หรือคุณสามารถเลือก ใหม่ เพื่อสร้างตารางใหม่
ตาราง: เมื่อคุณใช้ Lakehouse กับ Schema ในการเชื่อมต่อ ให้เลือกตารางที่มีอยู่ด้วย Schema จากรายการตารางหรือระบุตารางที่มี schema เป็นแหล่งข้อมูล หรือคุณสามารถเลือก ใหม่ เพื่อสร้างตารางใหม่ด้วย schema ถ้าคุณไม่ได้ระบุชื่อสคีมา บริการจะใช้ dbo เป็น Schema ค่าเริ่มต้น
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
- ประทับเวลา: ระบุเพื่อคิวรีสแนปช็อตที่เก่ากว่าตามการประทับเวลา
- เวอร์ชัน: ระบุเพื่อคิวรีสแนปช็อตที่เก่ากว่าตามเวอร์ชัน
- คอลัมน์เพิ่มเติม: เพิ่มคอลัมน์ข้อมูลเพิ่มเติมไปยังเส้นทางสัมพัทธ์หรือค่าคงที่ของไฟล์ต้นฉบับร้านค้า นิพจน์ได้รับการสนับสนุนสําหรับอย่างหลัง
รองรับโปรแกรมอ่านเวอร์ชัน 1 คุณสามารถค้นหาคุณลักษณะ Delta Lake ที่รองรับที่สอดคล้องกันได้ในบทความนี้
หากคุณเลือก ไฟล์:
ประเภทพาธของไฟล์: คุณสามารถเลือกพาธของไฟล์ เส้นทางไฟล์ไวด์การ์ด หรือรายการไฟล์เป็นประเภทพาธของไฟล์ของคุณได้ รายการต่อไปนี้อธิบายถึงการกําหนดค่าของแต่ละการตั้งค่า:
พาธของไฟล์: เลือก เรียกดู เพื่อเลือกไฟล์ที่คุณต้องการคัดลอก หรือกรอกเส้นทางด้วยตนเอง
เส้นทางไฟล์อักขระตัวแทน: ระบุโฟลเดอร์หรือเส้นทางของไฟล์ด้วยอักขระตัวแทนภายใต้พื้นที่ที่ไม่มีการจัดการของ Lakehouse (ภายใต้ไฟล์) เพื่อกรองโฟลเดอร์หรือไฟล์ต้นทางของคุณ สัญลักษณ์ตัวแทนที่อนุญาตคือ:
*
(ตรงกับอักขระศูนย์หรือมากกว่า) และ?
(ตรงกับศูนย์หรืออักขระเดี่ยว) ใช้^
เพื่อหลีกเลี่ยงถ้าชื่อโฟลเดอร์หรือชื่อแฟ้มของคุณมีอักขระตัวแทนหรืออักขระหลีกเลี่ยงนี้อยู่ภายในรายการไฟล์: ระบุที่จะคัดลอกชุดไฟล์ที่กําหนด
- เส้นทางโฟลเดอร์: ชี้ไปยังโฟลเดอร์ที่มีไฟล์ที่คุณต้องการคัดลอก
- เส้นทางไปยังรายการไฟล์: ชี้ไปยังไฟล์ข้อความที่มีรายการของไฟล์ที่คุณต้องการคัดลอกหนึ่งไฟล์ต่อบรรทัดซึ่งเป็นเส้นทางสัมพัทธ์ไปยังเส้นทางไฟล์ที่กําหนดค่า
แบบเรียกใช้ซ้ํา: ระบุว่าข้อมูลถูกอ่านซ้ําจากโฟลเดอร์ย่อยหรือเฉพาะจากโฟลเดอร์ที่ระบุ หากเปิดใช้งาน จะมีการประมวลผลไฟล์ทั้งหมดในโฟลเดอร์อินพุตและโฟลเดอร์ย่อยซ้ํา คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์
รูปแบบไฟล์: เลือกรูปแบบไฟล์ของคุณจากรายการดรอปดาวน์ เลือก ปุ่ม การตั้งค่า เพื่อกําหนดค่ารูปแบบไฟล์ สําหรับการตั้งค่ารูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
- กรองตามการปรับเปลี่ยนล่าสุด: ไฟล์จะถูกกรองตามวันที่ปรับเปลี่ยนล่าสุด คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์
- เวลาเริ่มต้น: ไฟล์จะถูกเลือกหากเวลาที่ปรับเปลี่ยนครั้งล่าสุดมากกว่าหรือเท่ากับเวลาที่กําหนดไว้
- เวลาสิ้นสุด: ไฟล์จะถูกเลือกถ้าเวลาที่ปรับเปลี่ยนครั้งล่าสุดน้อยกว่าเวลาที่กําหนดค่าไว้
- เปิดใช้งานการค้นพบพาร์ติชัน: สําหรับไฟล์ที่มีการแบ่งพาร์ติชัน ให้ระบุว่าจะแยกวิเคราะห์พาร์ติชันจากเส้นทางไฟล์และเพิ่มเป็นคอลัมน์ต้นทางเพิ่มเติมหรือไม่
- เส้นทางรากของพาร์ติชัน: เมื่อเปิดใช้งานการค้นพบพาร์ติชัน ให้ระบุเส้นทางรากสัมบูรณ์เพื่ออ่านโฟลเดอร์ที่มีพาร์ติชันเป็นคอลัมน์ข้อมูล
- การเชื่อมต่อพร้อมกันสูงสุด: ระบุขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างขึ้นไปยังที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น
- กรองตามการปรับเปลี่ยนล่าสุด: ไฟล์จะถูกกรองตามวันที่ปรับเปลี่ยนล่าสุด คุณสมบัตินี้ใช้ไม่ได้เมื่อคุณกําหนดค่าชนิดเส้นทางไฟล์ของคุณเป็นรายการของไฟล์
ปลายทาง
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนสําหรับเลคเฮ้าส์ใต้ แท็บปลายทาง ของกิจกรรมการคัดลอก
จําเป็นต้องมีคุณสมบัติต่อไปนี้:
การเชื่อมต่อ: เลือกการเชื่อมต่อของ Lakehouse จากรายการการเชื่อมต่อ หากไม่มีการเชื่อมต่อ ให้สร้างการเชื่อมต่อ Lakehouse ใหม่โดยการเลือก เพิ่มเติม ที่ด้านล่างของรายการการเชื่อมต่อ ถ้าคุณใช้ ใช้เนื้อหา แบบไดนามิกเพื่อระบุเลคเฮ้าส์ของคุณ ให้เพิ่มพารามิเตอร์และระบุ ID ออบเจ็กต์ของ Lakehouse เป็นค่าพารามิเตอร์ หากต้องการรับ ID ออปเจ็กต์ของ Lakehouse ให้เปิดเลคเฮาส์ของคุณในพื้นที่ทํางานและ ID จะอยู่หลัง
/lakehouses/
URL ของคุณโฟลเดอร์ราก: เลือก ตาราง หรือ ไฟล์ซึ่งระบุมุมมองเสมือนของพื้นที่ที่มีการจัดการหรือไม่ถูกจัดการในทะเลสาบของคุณ สําหรับข้อมูลเพิ่มเติม โปรดดูบท นําของเลคเฮ้าส์
ถ้าคุณเลือก ตาราง:
ชื่อตาราง: เลือกตารางที่มีอยู่จากรายการตาราง หรือระบุชื่อตารางเป็นปลายทาง หรือคุณสามารถเลือก ใหม่ เพื่อสร้างตารางใหม่
ตาราง: เมื่อคุณใช้ Lakehouse กับ Schema ในการเชื่อมต่อ ให้เลือกตารางที่มีอยู่ด้วย Schema จากรายการตารางหรือระบุตารางที่มี Schema เป็นปลายทาง หรือคุณสามารถเลือก ใหม่ เพื่อสร้างตารางใหม่ด้วย schema ถ้าคุณไม่ได้ระบุชื่อสคีมา บริการจะใช้ dbo เป็น Schema ค่าเริ่มต้น
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
การดําเนินการตาราง: ระบุการดําเนินการกับตารางที่เลือก
ผนวก: ผนวกค่าใหม่ลงในตารางที่มีอยู่
- เปิดใช้งานพาร์ติชัน: การเลือกนี้ช่วยให้คุณสามารถสร้างพาร์ติชันในโครงสร้างโฟลเดอร์โดยยึดตามหนึ่งหรือหลายคอลัมน์ แต่ละค่าคอลัมน์ที่แตกต่างกัน (คู่) เป็นพาร์ติชันใหม่ ตัวอย่างเช่น "year=2000/month=01/file"
- ชื่อคอลัมน์พาร์ติชัน: เลือกจากคอลัมน์ปลายทางในการแมป schemas เมื่อคุณผนวกข้อมูลไปยังตารางใหม่ เมื่อคุณผนวกข้อมูลไปยังตารางที่มีอยู่ที่มีพาร์ติชันอยู่แล้ว คอลัมน์พาร์ติชันจะได้รับมาจากตารางที่มีอยู่โดยอัตโนมัติ ชนิดข้อมูลที่ได้รับการสนับสนุนคือ สตริง จํานวนเต็ม บูลีน และวันที่เวลา รูปแบบเป็นไปตามการตั้งค่าการแปลงชนิดภายใต้แท็บ การแมป
- เปิดใช้งานพาร์ติชัน: การเลือกนี้ช่วยให้คุณสามารถสร้างพาร์ติชันในโครงสร้างโฟลเดอร์โดยยึดตามหนึ่งหรือหลายคอลัมน์ แต่ละค่าคอลัมน์ที่แตกต่างกัน (คู่) เป็นพาร์ติชันใหม่ ตัวอย่างเช่น "year=2000/month=01/file"
เขียนทับ: เขียนทับข้อมูลและ schema ที่มีอยู่ในตารางโดยใช้ค่าใหม่ ถ้าการดําเนินการนี้ถูกเลือก คุณสามารถเปิดใช้งานพาร์ติชันในตารางเป้าหมายของคุณ:
- เปิดใช้งานพาร์ติชัน: การเลือกนี้ช่วยให้คุณสามารถสร้างพาร์ติชันในโครงสร้างโฟลเดอร์โดยยึดตามหนึ่งหรือหลายคอลัมน์ แต่ละค่าคอลัมน์ที่แตกต่างกัน (คู่) เป็นพาร์ติชันใหม่ ตัวอย่างเช่น "year=2000/month=01/file"
- ชื่อคอลัมน์พาร์ติชัน: เลือกจากคอลัมน์ปลายทางในการแมป Schema ชนิดข้อมูลที่ได้รับการสนับสนุนคือ สตริง จํานวนเต็ม บูลีน และวันที่เวลา รูปแบบเป็นไปตามการตั้งค่าการแปลงชนิดภายใต้แท็บ การแมป
รองรับ การเดินทางในเวลาทะเลสาบเดลต้า ตารางที่ถูกเขียนทับมีบันทึก delta สําหรับเวอร์ชันก่อนหน้าซึ่งคุณสามารถเข้าถึงได้ในเลคเฮ้าส์ของคุณ คุณยังสามารถคัดลอกตารางเวอร์ชันก่อนหน้าจาก Lakehouse โดยระบุเวอร์ชันในแหล่งกิจกรรมคัดลอกได้
- เปิดใช้งานพาร์ติชัน: การเลือกนี้ช่วยให้คุณสามารถสร้างพาร์ติชันในโครงสร้างโฟลเดอร์โดยยึดตามหนึ่งหรือหลายคอลัมน์ แต่ละค่าคอลัมน์ที่แตกต่างกัน (คู่) เป็นพาร์ติชันใหม่ ตัวอย่างเช่น "year=2000/month=01/file"
การเชื่อมต่อพร้อมกันสูงสุด: ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างไปยังที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น
รองรับตัวเขียนเวอร์ชัน 2 คุณสามารถค้นหาคุณลักษณะ Delta Lake ที่รองรับที่สอดคล้องกันได้ในบทความนี้
หากคุณเลือก ไฟล์:
พาธของไฟล์: เลือก เรียกดู เพื่อเลือกไฟล์ที่คุณต้องการคัดลอก หรือกรอกเส้นทางด้วยตนเอง
รูปแบบไฟล์: เลือกรูปแบบไฟล์ของคุณจากรายการดรอปดาวน์ เลือก การตั้งค่า เพื่อกําหนดค่ารูปแบบไฟล์ สําหรับการตั้งค่ารูปแบบไฟล์ที่แตกต่างกัน ดูที่บทความในรูปแบบที่รองรับสําหรับข้อมูลโดยละเอียด
ภายใต้ ขั้นสูง คุณสามารถระบุเขตข้อมูลต่อไปนี้:
คัดลอกลักษณะการทํางาน: กําหนดลักษณะการทํางานของการคัดลอกเมื่อแหล่งข้อมูลคือไฟล์จากที่เก็บข้อมูลตามไฟล์ คุณสามารถเลือกลดรูปแบบโครงสร้างลําดับชั้น ผสานไฟล์ รักษาลําดับชั้น หรือเพิ่มเนื้อหาแบบไดนามิกเป็นลักษณะการทํางานในการคัดลอกของคุณได้ การกําหนดค่าของการตั้งค่าแต่ละรายการคือ:
ลําดับชั้นลดรูปแบบโครงสร้าง: ไฟล์ทั้งหมดจากโฟลเดอร์ต้นทางอยู่ในระดับแรกของโฟลเดอร์ปลายทาง ไฟล์ปลายทางมีชื่อที่สร้างขึ้นโดยอัตโนมัติ
ผสานไฟล์: ผสานไฟล์ทั้งหมดจากโฟลเดอร์ต้นทางไปยังไฟล์เดียว ถ้ามีการระบุชื่อไฟล์ ชื่อไฟล์ที่ผสานคือชื่อที่ระบุ มิฉะนั้น จะเป็นชื่อไฟล์ที่สร้างโดยอัตโนมัติ
รักษาลําดับชั้น: รักษาลําดับชั้นไฟล์ในโฟลเดอร์เป้าหมาย เส้นทางสัมพัทธ์ของไฟล์ต้นทางไปยังโฟลเดอร์ต้นทางจะเหมือนกับเส้นทางสัมพัทธ์ของไฟล์เป้าหมายไปยังโฟลเดอร์เป้าหมาย
เพิ่มเนื้อหาแบบไดนามิก: เมื่อต้องการระบุนิพจน์สําหรับค่าคุณสมบัติ ให้เลือก เพิ่มเนื้อหาแบบไดนามิก เขตข้อมูลนี้จะเปิดตัวสร้างนิพจน์ที่คุณสามารถสร้างนิพจน์จากตัวแปรระบบที่ได้รับการสนับสนุน ผลลัพธ์กิจกรรม ฟังก์ชัน และตัวแปรหรือพารามิเตอร์ที่ผู้ใช้ระบุ สําหรับข้อมูลเพิ่มเติมเกี่ยวกับภาษาของนิพจน์ ให้ไปที่ นิพจน์และฟังก์ชัน
การเชื่อมต่อพร้อมกันสูงสุด: ขีดจํากัดสูงสุดของการเชื่อมต่อพร้อมกันที่สร้างไปยังที่เก็บข้อมูลในระหว่างการเรียกใช้กิจกรรม ระบุค่าเมื่อคุณต้องการจํากัดการเชื่อมต่อที่เกิดขึ้นพร้อมกันเท่านั้น
บล็อกขนาด (MB): ระบุขนาดบล็อกเป็น MB เมื่อเขียนข้อมูลไปยัง Lakehouse ค่าที่อนุญาตอยู่ระหว่าง 4 MB และ 100 MB
เมตาดาต้า: ตั้งค่าเมตาดาต้าแบบกําหนดเองเมื่อคัดลอกไปยังที่เก็บข้อมูลปลายทาง แต่ละออบเจ็กต์ภายใต้
metadata
อาร์เรย์ แสดงถึงคอลัมน์เพิ่มเติม กําหนดname
ชื่อคีย์เมตาดาต้า และvalue
ระบุค่าข้อมูลของคีย์นั้น ถ้ามี การใช้คุณลักษณะ รักษาแอตทริบิวต์ เมตาดาต้าที่ระบุจะรวม/เขียนทับด้วยเมตาดาต้าของไฟล์ต้นฉบับ ค่าข้อมูลที่อนุญาตคือ:
การแม็ป
สําหรับการกําหนดค่าแท็บการแมป ถ้าคุณไม่ได้ใช้ตาราง Lakehouse เป็นที่เก็บข้อมูลปลายทางของคุณ ไปที่การทําแผนที่
ถ้าคุณใช้ตาราง Lakehouse เป็นที่เก็บข้อมูลปลายทางของคุณ ยกเว้นการกําหนดค่าใน การทําแผนที่ คุณสามารถแก้ไขชนิดสําหรับคอลัมน์ปลายทางของคุณได้ หลังจากเลือก นําเข้า schemas คุณสามารถระบุชนิดคอลัมน์ในปลายทางของคุณได้
ตัวอย่างเช่น ชนิดของ คอลัมน์ PersonID ในแหล่งข้อมูลจะเป็น int และคุณสามารถเปลี่ยนเป็นชนิดสตริงเมื่อแมปไปยังคอลัมน์ปลายทางได้
หมายเหตุ
การแก้ไขชนิดปลายทางในขณะนี้ไม่รองรับเมื่อต้นทางของคุณเป็นชนิดทศนิยม
ถ้าคุณเลือกไบนารีเป็นรูปแบบไฟล์ของคุณ การแมปไม่ได้รับการรองรับ
การตั้งค่า
สําหรับการกําหนดค่าแท็บ การตั้งค่า ให้ไปที่ การตั้งค่า
ข้อมูลสรุปของตาราง
ตารางต่อไปนี้ประกอบด้วยข้อมูลเพิ่มเติมเกี่ยวกับกิจกรรมการคัดลอกในเลคเฮ้าส์