รูปแบบ Parquet ใน Data Factory ใน Microsoft Fabric
บทความนี้สรุปวิธีการกําหนดค่ารูปแบบ Parquet ในไปป์ไลน์ข้อมูลของ Data Factory ใน Microsoft Fabric
ความสามารถที่รองรับ
รูปแบบ Parquet ได้รับการสนับสนุนสําหรับกิจกรรมและตัวเชื่อมต่อต่อไปนี้เป็นต้นทางและปลายทาง
หมวดหมู่ | ตัวเชื่อมต่อ/กิจกรรม |
---|---|
ตัวเชื่อมต่อที่สนับสนุน | Amazon S3 |
เข้ากันได้กับ Amazon S3 | |
ที่เก็บข้อมูล Azure Blob | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage รุ่น2 | |
ไฟล์ Azure | |
ระบบไฟล์ | |
FTP | |
พื้นที่เก็บข้อมูล Google Cloud | |
HTTP | |
ไฟล์ของเลคเฮ้าส์ | |
ที่เก็บข้อมูล Oracle Cloud | |
SFTP | |
กิจกรรมที่ได้รับการสนับสนุน | คัดลอกกิจกรรม (ต้นทาง/ปลายทาง) |
ค้นหากิจกรรม | |
กิจกรรม GetMetadata | |
ลบกิจกรรม |
รูปแบบ Parquet ในกิจกรรมคัดลอก
หากต้องการกําหนดค่ารูปแบบ Parquet ให้เลือกการเชื่อมต่อของคุณในต้นทางหรือปลายทางของกิจกรรมการคัดลอกไปป์ไลน์ข้อมูลจากนั้นเลือก Parquet ในรายการดรอปดาวน์ของ รูปแบบไฟล์ เลือก การตั้งค่า สําหรับการกําหนดค่าเพิ่มเติมของรูปแบบนี้
รูปแบบ Parquet เป็นแหล่งข้อมูล
หลังจากที่คุณเลือก การตั้งค่า ในส่วน รูปแบบไฟล์ คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ
- ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop
รูปแบบ Parquet เป็นปลายทาง
หลังจากที่คุณเลือก การตั้งค่า คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ
ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop
ใช้ V-Order: เปิดใช้งานการปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet สําหรับข้อมูลเพิ่มเติม ดูการปรับตาราง Delta Lake ให้เหมาะสมและ V-Order ซึ่งจะเปิดใช้งานตามค่าเริ่มต้น
ภายใต้ การตั้งค่าขั้นสูง ใน แท็บ ปลายทาง คุณสมบัติที่เกี่ยวข้องกับรูปแบบ Parquet ต่อไปนี้จะปรากฏขึ้น
- แถวสูงสุดต่อไฟล์: เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์
- คํานําหน้าชื่อไฟล์: ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้:
<fileNamePrefix>_00000.<fileExtension>
ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล
ข้อมูลสรุปของตาราง
Parquet เป็นแหล่งข้อมูล
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนแหล่งกิจกรรมการคัดลอกเมื่อใช้รูปแบบ Parquet
ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
---|---|---|---|---|
รูปแบบไฟล์ | รูปแบบไฟล์ที่คุณต้องการใช้ | Parquet | ใช่ | type (ภายใต้ datasetSettings ):Parquet |
ชนิดการบีบอัด | ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet | เลือกจาก: ไม่มี gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
ไม่ | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet เป็นปลายทาง
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนคัดลอกปลายทางกิจกรรมเมื่อใช้รูปแบบ Parquet
ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
---|---|---|---|---|
รูปแบบไฟล์ | รูปแบบไฟล์ที่คุณต้องการใช้ | Parquet | ใช่ | type (ภายใต้ datasetSettings ):Parquet |
ใช้การสั่งซื้อ V | การปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet | เลือกหรือไม่เลือก | ไม่ | เปิดใช้งาน VertiParquet |
ชนิดการบีบอัด | ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet | เลือกจาก: ไม่มี gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
ไม่ | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
แถวสูงสุดต่อไฟล์ | เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์ | <แถวสูงสุดของคุณต่อไฟล์> | ไม่ | maxRowsPerFile |
คํานําหน้าชื่อไฟล์ | ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้: <fileNamePrefix>_00000.<fileExtension> ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล |
<คํานําหน้าชื่อไฟล์ของคุณ> | ไม่ | fileNamePrefix |