วิธีการคัดลอกข้อมูลโดยใช้กิจกรรมการคัดลอก
ในไปป์ไลน์ข้อมูล คุณสามารถใช้กิจกรรมคัดลอกเพื่อคัดลอกข้อมูลระหว่างที่เก็บข้อมูลที่อยู่ในระบบคลาวด์ได้
หลังจากที่คุณคัดลอกข้อมูลแล้ว คุณสามารถใช้กิจกรรมอื่นเพื่อแปลงและวิเคราะห์เพิ่มเติมได้ คุณยังสามารถใช้กิจกรรมคัดลอกเพื่อเผยแพร่ผลลัพธ์การแปลงและการวิเคราะห์สําหรับข่าวกรองธุรกิจ (BI) และการใช้แอปพลิเคชันได้
เมื่อต้องการคัดลอกข้อมูลจากต้นทางไปยังปลายทาง บริการที่เรียกใช้กิจกรรมการคัดลอกทําตามขั้นตอนเหล่านี้:
- อ่านข้อมูลจากที่เก็บข้อมูลต้นทาง
- ดําเนินการซีเรียลไลซ์/ดีซีเรียลไลซ์ การบีบอัด/การขยายการแมปคอลัมน์ และอื่น ๆ ซึ่งจะดําเนินการเหล่านี้ตามการกําหนดค่า
- เขียนข้อมูลไปยังที่เก็บข้อมูลปลายทาง
ข้อกำหนดเบื้องต้น
เมื่อต้องการเริ่มต้นใช้งาน คุณต้องดําเนินการข้อกําหนดเบื้องต้นต่อไปนี้ให้เสร็จสมบูรณ์:
บัญชีผู้เช่า Microsoft Fabric ที่มีการสมัครใช้งานที่ใช้งานอยู่ สร้างบัญชีฟรี
ตรวจสอบให้แน่ใจว่า คุณมีพื้นที่ทํางานที่เปิดใช้งาน Microsoft Fabric
เพิ่มกิจกรรมการคัดลอกโดยใช้ตัวช่วยคัดลอก
ทําตามขั้นตอนเหล่านี้เพื่อตั้งค่ากิจกรรมการคัดลอกของคุณโดยใช้ตัวช่วยคัดลอก
เริ่มต้นด้วยตัวช่วยสร้างสําเนา
เปิดไปป์ไลน์ข้อมูลที่มีอยู่หรือสร้างไปป์ไลน์ข้อมูลใหม่
เลือก คัดลอกข้อมูล บนพื้นที่ทํางาน เพื่อเปิด เครื่องมือ คัดลอกผู้ช่วย เพื่อเริ่มต้นใช้งาน หรือเลือก ใช้ผู้ช่วย คัดลอก จากรายการ ดรอปดาวน์ คัดลอกข้อมูล ภายใต้ แท็บ กิจกรรม บนริบบอน
กําหนดค่าแหล่งที่มาของคุณ
เลือกชนิดแหล่งข้อมูลจากประเภท คุณจะใช้ที่เก็บข้อมูล Azure Blob เป็นตัวอย่าง เลือกที่เก็บข้อมูล Azure Blob แล้วเลือกถัดไป
สร้างการเชื่อมต่อไปยังแหล่งข้อมูลของคุณโดยการเลือก สร้างการเชื่อมต่อใหม่
หลังจากที่คุณเลือก สร้างการเชื่อมต่อใหม่ ให้กรอกข้อมูลการเชื่อมต่อที่จําเป็น จากนั้นเลือก ถัดไป สําหรับรายละเอียดของการสร้างการเชื่อมต่อสําหรับแหล่งข้อมูลแต่ละชนิด คุณสามารถอ้างอิงบทความตัวเชื่อมต่อแต่ละตัวได้
ถ้าคุณมีการเชื่อมต่อที่มีอยู่ คุณสามารถเลือก การเชื่อมต่อ ที่มีอยู่ และเลือกการเชื่อมต่อของคุณจากรายการดรอปดาวน์
เลือกไฟล์หรือโฟลเดอร์ที่จะคัดลอกในขั้นตอนการกําหนดค่าแหล่งข้อมูลนี้ จากนั้นเลือก ถัดไป
กําหนดค่าปลายทางของคุณ
เลือกชนิดแหล่งข้อมูลจากประเภท คุณจะใช้ที่เก็บข้อมูล Azure Blob เป็นตัวอย่าง คุณสามารถสร้างการเชื่อมต่อใหม่ที่เชื่อมโยงไปยังบัญชี Azure Blob Storage ใหม่โดยทําตามขั้นตอนในส่วนก่อนหน้า หรือใช้การเชื่อมต่อที่มีอยู่จากรายการดรอปดาวน์การเชื่อมต่อ ความสามารถของ การทดสอบการเชื่อมต่อ และ แก้ไข จะพร้อมใช้งานสําหรับแต่ละการเชื่อมต่อที่เลือก
กําหนดค่าและแมปข้อมูลต้นทางของคุณไปยังปลายทางของคุณ จากนั้นเลือก ถัดไป เพื่อเสร็จสิ้นการกําหนดค่าปลายทางของคุณ
หมายเหตุ
คุณสามารถใช้เกตเวย์ข้อมูลภายในองค์กรเดียวภายในกิจกรรมการคัดลอกเดียวกันเท่านั้น ถ้าทั้งแหล่งข้อมูลและที่เก็บเป็นแหล่งข้อมูลภายในองค์กร แหล่งข้อมูลเหล่านี้ต้องใช้เกตเวย์เดียวกัน เมื่อต้องการย้ายข้อมูลระหว่างแหล่งข้อมูลภายในองค์กรกับเกตเวย์อื่น คุณต้องคัดลอกโดยใช้เกตเวย์แรกไปยังแหล่งข้อมูลบนระบบคลาวด์ระดับกลางในกิจกรรมการคัดลอกหนึ่งกิจกรรม จากนั้นคุณสามารถใช้กิจกรรมคัดลอกอื่นเพื่อคัดลอกจากแหล่งข้อมูลระบบคลาวด์ระดับกลางโดยใช้เกตเวย์ที่สอง
ตรวจสอบและสร้างกิจกรรมการคัดลอกของคุณ
ตรวจสอบการตั้งค่าการคัดลอกกิจกรรมของคุณในขั้นตอนก่อนหน้า และเลือก ตกลง เพื่อเสร็จสิ้น หรือคุณสามารถย้อนกลับไปยังขั้นตอนก่อนหน้านี้เพื่อแก้ไขการตั้งค่าของคุณถ้าจําเป็นในเครื่องมือ
เมื่อเสร็จสิ้น กิจกรรมการคัดลอกจะถูกเพิ่มไปยังพื้นที่ทํางานของไปป์ไลน์ข้อมูลของคุณ การตั้งค่าทั้งหมด รวมถึงการตั้งค่าขั้นสูงของกิจกรรมการคัดลอกนี้จะพร้อมใช้งานภายใต้แท็บเมื่อเลือกไว้
ในตอนนี้คุณสามารถบันทึกไปป์ไลน์ข้อมูลของคุณด้วยกิจกรรมการคัดลอกเดียวนี้หรือออกแบบไปป์ไลน์ข้อมูลของคุณต่อไปได้
เพิ่มกิจกรรมการคัดลอกโดยตรง
ทําตามขั้นตอนเหล่านี้เพื่อเพิ่มกิจกรรมการคัดลอกโดยตรง
เพิ่มกิจกรรมการคัดลอก
เปิดไปป์ไลน์ข้อมูลที่มีอยู่หรือสร้างไปป์ไลน์ข้อมูลใหม่
เพิ่มกิจกรรมการคัดลอกโดยการเลือก เพิ่มกิจกรรมการคัดลอกกิจกรรม>ของไปป์ไลน์ หรือโดยการเลือก คัดลอกข้อมูล>เพิ่มไปยังพื้นที่ทํางาน ภายใต้แท็บ กิจกรรม
กําหนดค่าการตั้งค่าทั่วไปของคุณภายใต้แท็บทั่วไป
หากต้องการเรียนรู้วิธีการกําหนดค่าการตั้งค่าทั่วไปของคุณ โปรดดูทั่วไป
กําหนดค่าแหล่งข้อมูลของคุณภายใต้แท็บแหล่งข้อมูล
เลือก + ใหม่ ด้านข้าง การเชื่อมต่อ เพื่อสร้างการเชื่อมต่อกับแหล่งข้อมูลของคุณ
เลือกชนิดแหล่งข้อมูลจากหน้าต่างป็อปอัพ คุณจะใช้ Azure SQL Database เป็นตัวอย่าง เลือกฐานข้อมูล Azure SQL แล้วเลือก ดําเนินการต่อ
ซึ่งจะนําทางไปยังหน้าการสร้างการเชื่อมต่อ กรอกข้อมูลการเชื่อมต่อที่จําเป็นบนแผงจากนั้นเลือกสร้าง สําหรับรายละเอียดของการสร้างการเชื่อมต่อสําหรับแหล่งข้อมูลแต่ละชนิด คุณสามารถอ้างอิงบทความตัวเชื่อมต่อแต่ละตัวได้
เมื่อสร้างการเชื่อมต่อของคุณเรียบร้อยแล้ว ระบบจะนําคุณกลับไปยังหน้าไปป์ไลน์ข้อมูล จากนั้นเลือก รีเฟรช เพื่อดึงข้อมูลการเชื่อมต่อที่คุณสร้างขึ้นจากรายการดรอปดาวน์ คุณยังสามารถเลือกการเชื่อมต่อฐานข้อมูล Azure SQL ที่มีอยู่จากเมนูดรอปดาวน์โดยตรงถ้าคุณเคยสร้างไว้ก่อนหน้านี้ ความสามารถของ การทดสอบการเชื่อมต่อ และ แก้ไข จะพร้อมใช้งานสําหรับแต่ละการเชื่อมต่อที่เลือก จากนั้นเลือกฐานข้อมูล Azure SQL ในชนิดการเชื่อมต่อ
ระบุตารางที่จะคัดลอก เลือก แสดงตัวอย่างข้อมูล เพื่อแสดงตัวอย่างตารางต้นทางของคุณ คุณยังสามารถใช้ Query และ Stored Procedure เพื่ออ่านข้อมูลจากแหล่งข้อมูลของคุณได้
ขยาย ขั้นสูง สําหรับการตั้งค่าขั้นสูงเพิ่มเติม
กําหนดค่าปลายทางของคุณภายใต้แท็บปลายทาง
เลือกประเภทปลายทาง ซึ่งอาจเป็นได้ทั้งที่เก็บข้อมูลชั้นหนึ่งภายในของคุณจากพื้นที่ทํางาน ของคุณ เช่น เลคเฮ้าส์ หรือที่เก็บข้อมูลภายนอกของคุณ คุณจะใช้เลคเฮ้าส์เป็นตัวอย่าง
เลือกใช้ เลคเฮ้าส์ ใน ประเภทที่เก็บข้อมูลของพื้นที่ทํางาน เลือก + ใหม่และนําทางคุณไปยังหน้าการสร้างเลคเฮ้าส์ ระบุชื่อของเลคเฮ้าส์ของคุณ จากนั้นเลือก สร้าง
เมื่อสร้างการเชื่อมต่อของคุณเรียบร้อยแล้ว ระบบจะนําคุณกลับไปยังหน้าไปป์ไลน์ข้อมูล จากนั้นเลือก รีเฟรช เพื่อดึงข้อมูลการเชื่อมต่อที่คุณสร้างขึ้นจากรายการดรอปดาวน์ คุณยังสามารถเลือกการเชื่อมต่อของ Lakehouse ที่มีอยู่แล้วจากเมนูดรอปดาวน์โดยตรงถ้าคุณเคยสร้างมาก่อน
ระบุตารางหรือตั้งค่าพาธไฟล์เพื่อกําหนดไฟล์หรือโฟลเดอร์เป็นปลายทาง ที่นี่เลือก ตาราง และระบุตารางเพื่อเขียนข้อมูล
ขยาย ขั้นสูง สําหรับการตั้งค่าขั้นสูงเพิ่มเติม
ในตอนนี้คุณสามารถบันทึกไปป์ไลน์ข้อมูลของคุณด้วยกิจกรรมการคัดลอกเดียวนี้หรือออกแบบไปป์ไลน์ข้อมูลของคุณต่อไปได้
กําหนดค่าการแมปของคุณภายใต้แท็บการแมป
ถ้าตัวเชื่อมต่อที่คุณใช้สนับสนุนการแมป คุณสามารถไปที่ แท็บ แมป เพื่อกําหนดค่าการแมปของคุณ
เลือก นําเข้าสคี มา เพื่อนําเข้าสคีมาของข้อมูลของคุณ
คุณสามารถดูการแมปอัตโนมัติจะแสดงขึ้น ระบุคอลัมน์ต้นทางและคอลัมน์ปลายทางของคุณ ถ้าคุณสร้างตารางใหม่ในปลายทาง คุณสามารถกําหนดชื่อคอลัมน์ ปลายทาง ของคุณได้ที่นี่ ถ้าคุณต้องการเขียนข้อมูลลงในตารางปลายทางที่มีอยู่ คุณไม่สามารถปรับเปลี่ยนชื่อคอลัมน์ปลายทางที่มีอยู่ได้ คุณยังสามารถดู ชนิดของ คอลัมน์ต้นทางและปลายทางได้
นอกจากนี้ คุณสามารถเลือก+ การแมปใหม่ เพื่อเพิ่มการแมปใหม่ เลือก ล้างเพื่อล้างการตั้งค่าการแมปทั้งหมด และเลือก รีเซ็ต เพื่อรีเซ็ตคอลัมน์แหล่งข้อมูลการแมปทั้งหมด
กําหนดค่าการตั้งค่าอื่น ๆ ของคุณภายใต้แท็บการตั้งค่า
แท็บ การตั้งค่า ประกอบด้วยการตั้งค่าของประสิทธิภาพ การทํางาน การแบ่งระยะ และอื่นๆ
ดูตารางต่อไปนี้สําหรับคําอธิบายของแต่ละการตั้งค่า
การตั้งค่า | คำอธิบาย | คุณสมบัติสคริปต์ JSON |
---|---|---|
การปรับอัตราความเร็วอัจฉริยะให้เหมาะสม | ระบุ เพื่อปรับอัตราความเร็วให้เหมาะสม คุณสามารถเลือกจาก: • อัตโนมัติ • มาตรฐาน • สมดุล • สูงสุด เมื่อคุณเลือก อัตโนมัติ การตั้งค่าที่เหมาะสมจะถูกนําไปใช้แบบไดนามิกตามคู่ปลายทางต้นทางและรูปแบบข้อมูลของคุณ คุณยังสามารถกําหนดค่าปริมาณงานและค่าแบบกําหนดเองของคุณอาจเป็น 2-256 ในขณะที่ค่าที่สูงขึ้นหมายถึงกําไรเพิ่มขึ้น |
dataIntegrationUnits |
ระดับของการคัดลอกแบบขนาน | ระบุระดับของความขนานที่การโหลดข้อมูลจะใช้ | parallelCopies |
ระดับความคลาดเคลื่อนของข้อบกพร่อง | เมื่อเลือกตัวเลือกนี้ คุณสามารถเพิกเฉยต่อข้อผิดพลาดบางอย่างที่เกิดขึ้นในช่วงกลางของกระบวนการคัดลอกได้ ตัวอย่างเช่น แถวที่เข้ากันไม่ได้ระหว่างที่เก็บต้นทางและปลายทาง ไฟล์ถูกลบในระหว่างการย้ายข้อมูล และอื่น ๆ | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName |
เปิดใช้งานการบันทึก | เมื่อเลือกตัวเลือกนี้ คุณสามารถบันทึกไฟล์ที่คัดลอก ข้ามไฟล์และแถวได้ | / |
เปิดใช้งานการจัดเตรียม | ระบุว่าจะคัดลอกข้อมูลผ่านร้านค้าการจัดเตรียมระหว่างกลางหรือไม่ เปิดใช้งานการจัดเตรียมสําหรับสถานการณ์ที่เป็นประโยชน์เท่านั้น | enableStaging |
ชนิดของที่เก็บข้อมูล | เมื่อเปิดใช้งานการจัดเตรียม คุณสามารถเลือก พื้นที่ทํางาน และ ภายนอก เป็นประเภทที่เก็บข้อมูลของคุณได้ | / |
สําหรับ พื้นที่ทํางาน | ||
พื้นที่ | ระบุเพื่อใช้ที่เก็บข้อมูลการจัดเตรียมที่มีอยู่ภายใน | / |
สําหรับ ภายนอก | ||
การแบ่งระยะการเชื่อมต่อบัญชี | ระบุการเชื่อมต่อของ Azure Blob Storage หรือ Azure Data Lake Storage รุ่น2 ซึ่งอ้างอิงถึงอินสแตนซ์ของที่เก็บข้อมูลที่คุณใช้เป็นที่เก็บการจัดเตรียมระหว่างกลาง สร้างการเชื่อมต่อการจัดเตรียมถ้าคุณยังไม่มี | การเชื่อมต่อ (ภายใต้ externalReferences ) |
เส้นทางที่เก็บข้อมูล | ระบุเส้นทางที่คุณต้องการประกอบด้วยข้อมูลที่มีลําดับขั้น หากคุณไม่ได้ระบุเส้นทาง บริการจะสร้างคอนเทนเนอร์เพื่อจัดเก็บข้อมูลชั่วคราว ระบุเส้นทางเฉพาะเมื่อคุณใช้ที่เก็บข้อมูลที่มีลายเซ็นสําหรับการเข้าถึงที่ใช้ร่วมกัน หรือคุณต้องการข้อมูลชั่วคราวให้อยู่ในตําแหน่งที่ระบุ | path |
เปิดใช้งานการบีบอัด | ระบุว่าควรบีบอัดข้อมูลก่อนที่จะคัดลอกไปยังปลายทางหรือไม่ การตั้งค่านี้จะลดปริมาณข้อมูลที่ถูกถ่ายโอน | เปิดใช้งานการบีบอัด |
สงวน | ระบุว่าจะรักษาเมตาดาต้า/ACL ในระหว่างการคัดลอกข้อมูลหรือไม่ | สงวน |
หมายเหตุ
ถ้าคุณใช้สําเนาแบบกําหนดลําดับขั้นด้วยการเปิดใช้งานการบีบอัด การรับรองความถูกต้องของบริการหลักสําหรับการเชื่อมต่อ staging blob ไม่ได้รับการรองรับ
กําหนดค่าพารามิเตอร์ในกิจกรรมการคัดลอก
คุณสามารถใช้พารามิเตอร์เพื่อควบคุมลักษณะการทํางานของไปป์ไลน์และกิจกรรมของไปป์ไลน์ได้ คุณสามารถใช้ เพิ่มเนื้อหา แบบไดนามิก เพื่อระบุพารามิเตอร์สําหรับคุณสมบัติกิจกรรมการคัดลอกของคุณได้ เราลองระบุ Lakehouse/Data Warehouse/ฐานข้อมูล KQL เป็นตัวอย่างเพื่อดูวิธีใช้
ในต้นทางหรือปลายทางของคุณ หลังจากเลือกพื้นที่ทํางานเป็นชนิดข้อมูลและระบุฐานข้อมูล Lakehouse/Data Warehouse/KQL เป็นประเภทที่เก็บข้อมูลพื้นที่ทํางานแล้ว ให้เลือกเพิ่มเนื้อหาแบบไดนามิกในรายการดรอปดาวน์ของ Lakehouse หรือ Data Warehouse หรือ Data Warehouse หรือ KQL Database
ในป็อปอัพ เพิ่มเนื้อหาแบบไดนามิกบานหน้าต่าง ภายใต้แท็บพารามิเตอร์ เลือก+
ระบุชื่อสําหรับพารามิเตอร์ของคุณ และให้เป็นค่าเริ่มต้นถ้าคุณต้องการ หรือคุณสามารถระบุค่าสําหรับพารามิเตอร์ได้หลังจากเลือก เรียกใช้ ในไปป์ไลน์
โปรดทราบว่าค่าพารามิเตอร์ควรเป็น ID ออปเจ็กต์ของ Lakehouse/Data Warehouse/KQL Database เพื่อรับ ID ออปเจ็กต์ Lakehouse/Data Warehouse/KQL Database ให้เปิด Lakehouse/Data Warehouse/KQL Database ในพื้นที่ทํางานของคุณ และ ID อยู่หลัง
/lakehouses/
หรือ/datawarehouses/
/databases/
ใน URL ของคุณID ออปเจ็กต์ของเลคเฮ้าส์:
ID ออปเจ็กต์ของคลังข้อมูล:
ID ออปเจ็กต์ของฐานข้อมูล KQL:
เลือก บันทึก เพื่อกลับไปยังบานหน้าต่าง เพิ่มเนื้อหา แบบไดนามิก จากนั้นเลือกพารามิเตอร์ของคุณเพื่อให้ปรากฏในกล่องนิพจน์ จากนั้นเลือก ตกลง คุณจะกลับไปยังหน้าไปป์ไลน์และสามารถดูนิพจน์พารามิเตอร์ที่ระบุหลังจาก ID ออปเจ็กต์ ID ออปเจ็กต์ของ Lakehouse ID//ออปเจ็กต์ KQL Database