รูปแบบ Parquet ใน Data Factory ใน Microsoft Fabric

บทความนี้สรุปวิธีการกําหนดค่ารูปแบบ Parquet ในไปป์ไลน์ข้อมูลของ Data Factory ใน Microsoft Fabric

ความสามารถที่รองรับ

รูปแบบ Parquet ได้รับการสนับสนุนสําหรับกิจกรรมและตัวเชื่อมต่อต่อไปนี้เป็นต้นทางและปลายทาง

หมวดหมู่ ตัวเชื่อมต่อ/กิจกรรม
ตัวเชื่อมต่อที่สนับสนุน Amazon S3
เข้ากันได้กับ Amazon S3
ที่เก็บข้อมูล Azure Blob
Azure Data Lake Storage Gen1
Azure Data Lake Storage รุ่น2
ไฟล์ Azure
ระบบไฟล์
FTP
พื้นที่เก็บข้อมูล Google Cloud
HTTP
ไฟล์ของเลคเฮ้าส์
ที่เก็บข้อมูล Oracle Cloud
SFTP
กิจกรรมที่ได้รับการสนับสนุน คัดลอกกิจกรรม (ต้นทาง/ปลายทาง)
ค้นหากิจกรรม
กิจกรรม GetMetadata
ลบกิจกรรม

รูปแบบ Parquet ในกิจกรรมคัดลอก

หากต้องการกําหนดค่ารูปแบบ Parquet ให้เลือกการเชื่อมต่อของคุณในต้นทางหรือปลายทางของกิจกรรมการคัดลอกไปป์ไลน์ข้อมูลจากนั้นเลือก Parquet ในรายการดรอปดาวน์ของ รูปแบบไฟล์ เลือก การตั้งค่า สําหรับการกําหนดค่าเพิ่มเติมของรูปแบบนี้

สกรีนช็อตที่แสดงการตั้งค่ารูปแบบไฟล์

รูปแบบ Parquet เป็นแหล่งข้อมูล

หลังจากที่คุณเลือก การตั้งค่า ในส่วน รูปแบบไฟล์ คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ

สกรีนช็อตที่แสดงแหล่งที่มาของรูปแบบไฟล์ parquet

  • ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop

รูปแบบ Parquet เป็นปลายทาง

หลังจากที่คุณเลือก การตั้งค่า คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ

สกรีนช็อตที่แสดงปลายทางรูปแบบไฟล์ parquet

  • ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop

  • ใช้ V-Order: เปิดใช้งานการปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet สําหรับข้อมูลเพิ่มเติม ดูการปรับตาราง Delta Lake ให้เหมาะสมและ V-Order ซึ่งจะเปิดใช้งานตามค่าเริ่มต้น

ภายใต้ การตั้งค่าขั้นสูง ใน แท็บ ปลายทาง คุณสมบัติที่เกี่ยวข้องกับรูปแบบ Parquet ต่อไปนี้จะปรากฏขึ้น

  • แถวสูงสุดต่อไฟล์: เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์
  • คํานําหน้าชื่อไฟล์: ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้: <fileNamePrefix>_00000.<fileExtension> ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล

ข้อมูลสรุปของตาราง

Parquet เป็นแหล่งข้อมูล

คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนแหล่งกิจกรรมการคัดลอกเมื่อใช้รูปแบบ Parquet

ชื่อ รายละเอียด ค่า ต้องมี คุณสมบัติสคริปต์ JSON
รูปแบบไฟล์ รูปแบบไฟล์ที่คุณต้องการใช้ Parquet ใช่ type (ภายใต้ datasetSettings):
Parquet
ชนิดการบีบอัด ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet เลือกจาก:
ไม่มี
gzip (.gz)
snappy
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
ไม่ compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet เป็นปลายทาง

คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนคัดลอกปลายทางกิจกรรมเมื่อใช้รูปแบบ Parquet

ชื่อ รายละเอียด ค่า ต้องมี คุณสมบัติสคริปต์ JSON
รูปแบบไฟล์ รูปแบบไฟล์ที่คุณต้องการใช้ Parquet ใช่ type (ภายใต้ datasetSettings):
Parquet
ใช้การสั่งซื้อ V การปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet เลือกหรือไม่เลือก ไม่ เปิดใช้งาน VertiParquet
ชนิดการบีบอัด ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet เลือกจาก:
ไม่มี
gzip (.gz)
snappy
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
ไม่ compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
แถวสูงสุดต่อไฟล์ เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์ <แถวสูงสุดของคุณต่อไฟล์> ไม่ maxRowsPerFile
คํานําหน้าชื่อไฟล์ ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้: <fileNamePrefix>_00000.<fileExtension> ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล <คํานําหน้าชื่อไฟล์ของคุณ> ไม่ fileNamePrefix