สถานการณ์สมมติแบบ end-to-end ของ Lakehouse: ภาพรวมและสถาปัตยกรรม

Microsoft Fabric เป็นโซลูชันการวิเคราะห์แบบครบวงจรสําหรับองค์กรที่ครอบคลุมทุกอย่างตั้งแต่การเคลื่อนไหวของข้อมูลไปจนถึงวิทยาศาสตร์ข้อมูล การวิเคราะห์แบบเรียลไทม์ และข่าวกรองธุรกิจ บริการนี้นําเสนอชุดบริการที่ครอบคลุม รวมถึงที่จัดเก็บข้อมูลทะเลสาบ วิศวกรรมข้อมูล และการรวมข้อมูลทั้งหมดในที่เดียว สําหรับข้อมูลเพิ่มเติม ดู Microsoft Fabric คืออะไร

บทช่วยสอนนี้จะแนะนําคุณผ่านสถานการณ์อย่างครอบคลุมตั้งแต่การรวบรวมข้อมูลไปจนถึงการใช้ข้อมูล จะช่วยให้คุณสร้างความเข้าใจพื้นฐานของ Fabric รวมถึงประสบการณ์ที่แตกต่างกันและวิธีการที่พวกเขารวมรวมถึงประสบการณ์นักพัฒนามืออาชีพและพลเมืองที่มาพร้อมกับการทํางานบนแพลตฟอร์มนี้ บทช่วยสอนนี้ไม่ได้มีไว้เพื่อเป็นสถาปัตยกรรมอ้างอิง รายการคุณลักษณะและฟังก์ชันการทํางานที่ละเอียดถี่ถ้วน หรือคําแนะนําแนวทางปฏิบัติที่ดีที่สุดที่เฉพาะเจาะจง

สถานการณ์แบบ end-to-end ของเลคเฮ้าส์

ในแบบดั้งเดิมองค์กรได้รับการสร้างคลังข้อมูลที่ทันสมัยสําหรับความต้องการในการวิเคราะห์ข้อมูลที่มีโครงสร้างและการทําธุรกรรมของพวกเขา และ data lakehouses สําหรับความต้องการวิเคราะห์ข้อมูลขนาดใหญ่ (แบบกึ่ง/ไม่มีโครงสร้าง) สองระบบนี้ทํางานควบคู่ไปกับการสร้างไซโล การทําสําเนาข้อมูล และเพิ่มต้นทุนความเป็นเจ้าของโดยรวม

ผ้าที่มีการรวมกันของที่เก็บข้อมูลและมาตรฐานในรูปแบบ Delta Lake ช่วยให้คุณสามารถกําจัดไซโลลบข้อมูลทําซ้ําและลดต้นทุนความเป็นเจ้าของทั้งหมดได้อย่างมาก

ด้วยความยืดหยุ่นที่เสนอโดย Fabric คุณสามารถใช้สถาปัตยกรรมของเลคเฮ้าส์หรือคลังข้อมูลหรือรวมเข้าด้วยกันเพื่อรับประโยชน์สูงสุดจากทั้งสองอย่างด้วยการใช้งานที่ง่าย ในบทช่วยสอนนี้ คุณจะใช้ตัวอย่างขององค์กรค้าปลีก และสร้างเลคเฮ้าส์ตั้งแต่ต้นจนจบ มันใช้ สถาปัตยกรรม เหรียญที่ชั้นทองแดงมีข้อมูลดิบชั้นเงินมีข้อมูลที่ผ่านการตรวจสอบและทําซ้ําและชั้นทองมีข้อมูลที่ละเอียดมาก คุณสามารถใช้วิธีการเดียวกันเพื่อใช้เลคเฮ้าส์สําหรับองค์กรใด ๆ จากทุกอุตสาหกรรม

บทช่วยสอนนี้อธิบายวิธีการที่นักพัฒนาที่บริษัทนําเข้า Wide World Importers จากโดเมนร้านค้าปลีกทําตามขั้นตอนต่อไปนี้ให้เสร็จสมบูรณ์:

  1. ลงชื่อเข้าใช้บัญชี Power BI ของคุณ และลงทะเบียนสําหรับ Microsoft Fabric รุ่นทดลองใช้ฟรี ถ้าคุณไม่มีสิทธิ์การใช้งาน Power BI ให้ ลงทะเบียนสําหรับสิทธิ์การใช้งาน Power BI ฟรี จากนั้นคุณสามารถเริ่มการทดลองใช้ Fabric

  2. สร้างและใช้เลคเฮ้าส์แบบ end-to-end สําหรับองค์กรของคุณ:

    • สร้างพื้นที่ทํางาน Fabric
    • สร้างเลคเฮ้าส์
    • นําเข้าข้อมูล แปลงข้อมูล และโหลดข้อมูลลงในเลคเฮ้าส์ นอกจากนี้คุณยังสามารถสํารวจ OneLake หนึ่งสําเนาของข้อมูลของคุณทั่วทั้งโหมดเลคเฮ้าส์และโหมดปลายทางการวิเคราะห์ SQL
    • เชื่อมต่อกับเลคเฮ้าส์ของคุณโดยใช้จุดสิ้นสุดการวิเคราะห์ SQL และ สร้างรายงาน Power BI โดยใช้ DirectLake เพื่อวิเคราะห์ข้อมูลยอดขายในมิติที่แตกต่างกัน
    • อีกทางหนึ่งคือ คุณสามารถวางแผนและจัดกําหนดการการนําเข้าข้อมูลและโฟลว์การแปลงข้อมูลด้วยไปป์ไลน์ได้
  3. ล้างข้อมูล โดยการลบพื้นที่ทํางานและรายการอื่นๆ

สถาปัตยกรรม

รูปภาพต่อไปนี้แสดงสถาปัตยกรรมแบบครบวงจรของเลคเฮ้าส์ คอมโพเนนต์ที่เกี่ยวข้องจะอธิบายไว้ในรายการต่อไปนี้

แผนภาพสถาปัตยกรรมแบบครบวงจรของเลคเฮ้าส์ใน Microsoft Fabric

  • แหล่งข้อมูล: Fabric ทําให้การเชื่อมต่อกับ Azure Data Services และแพลตฟอร์มบนระบบคลาวด์และแหล่งข้อมูลภายในองค์กรทําได้ง่ายและรวดเร็วเพื่อการนําเข้าข้อมูลที่คล่องตัว

  • การนําเข้า: คุณสามารถสร้างข้อมูลเชิงลึกสําหรับองค์กรของคุณโดยใช้ตัวเชื่อมต่อดั้งเดิมมากกว่า 200 ตัวได้อย่างรวดเร็ว ตัวเชื่อมต่อเหล่านี้ถูกรวมเข้ากับไปป์ไลน์ Fabric และใช้การแปลงข้อมูลแบบลากและปล่อยที่ใช้งานง่ายด้วยกระแสข้อมูล นอกจากนี้ด้วยคุณลักษณะ Shortcut ใน Fabric คุณสามารถเชื่อมต่อกับข้อมูลที่มีอยู่โดยไม่ต้องคัดลอกหรือย้ายได้

  • แปลงและจัดเก็บ: Fabric สร้างมาตรฐานในรูปแบบ Delta Lake ซึ่งหมายความว่ากลไก Fabric ทั้งหมดสามารถเข้าถึงและจัดการชุดข้อมูลเดียวกันที่จัดเก็บไว้ใน OneLake ได้โดยไม่ต้องทําซ้ําข้อมูล ระบบจัดเก็บข้อมูลนี้ให้ความยืดหยุ่นในการสร้างเลคเฮ้าส์โดยใช้สถาปัตยกรรมแบบเหรียญหรือตาข่ายข้อมูลทั้งนี้ขึ้นอยู่กับข้อกําหนดขององค์กรของคุณ คุณสามารถเลือกระหว่างประสบการณ์การใช้งานที่มีรหัสต่ําหรือไม่มีรหัสสําหรับการแปลงข้อมูล โดยใช้ไปป์ไลน์/กระแสข้อมูลหรือสมุดบันทึก/Spark สําหรับประสบการณ์การใช้งานโค้ดเป็นครั้งแรก

  • ใช้: Power BI สามารถใช้ข้อมูลจาก Lakehouse สําหรับการรายงานและการแสดงภาพ เลคเฮ้าส์แต่ละแห่งมีจุดสิ้นสุด TDS ที่มีอยู่ภายในที่เรียกว่า จุด สิ้นสุดการวิเคราะห์ SQL สําหรับการเชื่อมต่อที่ง่ายและการคิวรีของข้อมูลในตาราง Lakehouse จากเครื่องมือการรายงานอื่น ๆ จุดสิ้นสุดการวิเคราะห์ SQL มอบฟังก์ชันการเชื่อมต่อ SQL ให้กับผู้ใช้

ชุดข้อมูลตัวอย่าง

บทช่วยสอนนี้ใช้ ฐานข้อมูล ตัวอย่างตัวนําเข้าโลกกว้าง (WWI) ซึ่งคุณจะนําเข้าไปยัง lakehouse ในบทช่วยสอนถัดไป สําหรับสถานการณ์แบบ end-to-end ของเลคเฮ้าส์ เราได้สร้างข้อมูลเพียงพอที่จะสํารวจขนาดและความสามารถการทํางานของแพลตฟอร์ม Fabric

ผู้นําเข้าจากโลกกว้าง (WWI) เป็นผู้นําเข้าและจําหน่ายสินค้าแปลกใหม่และจําหน่ายจากพื้นที่อ่าวซานฟรานซิสโก ในฐานะผู้ค้าส่ง ลูกค้าของ WWI ส่วนใหญ่รวมถึงบริษัทที่ขายให้กับบุคคลต่าง ๆ WWI ขายให้กับลูกค้ารายย่อยทั่วสหรัฐอเมริกา รวมถึงร้านค้าพิเศษ ซูเปอร์มาร์เก็ต ร้านค้าสําหรับการประมวลผล ร้านท่องเที่ยว และบุคคลบางประเภท WWI ยังขายให้กับผู้ค้าส่งรายอื่นผ่านเครือข่ายตัวแทนที่โปรโมตผลิตภัณฑ์ในนามของ WWI เมื่อต้องการเรียนรู้เพิ่มเติมเกี่ยวกับโปรไฟล์บริษัทและการดําเนินงานของพวกเขา ดูฐานข้อมูลตัวอย่างผู้นําเข้าโลกกว้างสําหรับ Microsoft SQL

โดยทั่วไปข้อมูลถูกนําเข้าจากระบบทรานแซคชันหรือแอปพลิเคชันทางธุรกิจในเลคเฮ้าส์ อย่างไรก็ตาม เพื่อความง่ายในบทช่วยสอนนี้ เราใช้แบบจําลองมิติที่ให้มาโดย WWI เป็นแหล่งข้อมูลเริ่มต้นของเรา เราใช้มันเป็นแหล่งรวบรวมข้อมูลลงในเลคเฮ้าส์และแปลงข้อมูลผ่านขั้นตอนต่าง ๆ (ทองแดงเงินและทอง) ของสถาปัตยกรรมเหรียญรางวัล

แบบจำลองข้อมูล

ในขณะที่แบบจําลองมิติ WWI ประกอบด้วยตารางข้อเท็จจริงจํานวนมากสําหรับบทช่วยสอนนี้ เราใช้ตารางข้อเท็จจริงของยอดขายและมิติที่สัมพันธ์กัน ตัวอย่างต่อไปนี้แสดงให้เห็นถึงแบบจําลองข้อมูล WWI:

แผนภาพของตารางข้อเท็จจริงการขายและมิติที่เกี่ยวข้องสําหรับแบบจําลองข้อมูลของบทช่วยสอนนี้

ข้อมูลและโฟลว์การแปลง

ตามที่อธิบายไว้ก่อนหน้านี้ เรากําลังใช้ข้อมูลตัวอย่างจาก ข้อมูล ตัวอย่างผู้นําเข้าโลกกว้าง (WWI) เพื่อสร้าง lakehouse จากต้นจนจบนี้ ในการใช้งานนี้ ข้อมูลตัวอย่างจะถูกเก็บไว้ในบัญชีที่เก็บข้อมูล Azure ในรูปแบบไฟล์ Parquet สําหรับตารางทั้งหมด อย่างไรก็ตาม ในสถานการณ์จริง ข้อมูลมักจะมาจากแหล่งข้อมูลต่าง ๆ และในรูปแบบที่หลากหลาย

รูปภาพต่อไปนี้แสดงต้นทาง ปลายทาง และการแปลงข้อมูล:

แผนภาพวิธีการไหลของข้อมูลและการแปลงใน Microsoft Fabric

  • แหล่งข้อมูล: ข้อมูลต้นฉบับอยู่ในรูปแบบไฟล์ Parquet และในโครงสร้างที่ไม่มีการแบ่งส่วน ซึ่งถูกเก็บไว้ในโฟลเดอร์สําหรับแต่ละตาราง ในบทช่วยสอนนี้ เราตั้งค่าไปป์ไลน์เพื่อนําเข้าข้อมูลในอดีตที่สมบูรณ์หรือครั้งเดียวไปยังเลคเฮ้าส์

    ในบทช่วยสอนนี้ เราใช้ตารางข้อเท็จจริงการขาย ซึ่งมีโฟลเดอร์หลักหนึ่งโฟลเดอร์ที่มีข้อมูลในอดีตเป็นเวลา 11 เดือน (ที่มีโฟลเดอร์ย่อยหนึ่งโฟลเดอร์สําหรับแต่ละเดือน) และโฟลเดอร์อื่นที่มีข้อมูลแบบเพิ่มหน่วยสําหรับสามเดือน (โฟลเดอร์ย่อยหนึ่งโฟลเดอร์สําหรับแต่ละเดือน) ในระหว่างการนําเข้าข้อมูลเริ่มต้น ระบบจะนําเข้าข้อมูล 11 เดือนลงในตารางเลคเฮ้าส์ อย่างไรก็ตาม เมื่อข้อมูลแบบเพิ่มหน่วยมาถึง จะมีข้อมูลที่อัปเดตสําหรับเดือนตุลาคมและพ.ย. และข้อมูลใหม่สําหรับเดือนธันวาคมและพ.ย. ถูกผสานกับข้อมูลที่มีอยู่ และข้อมูล Dec ใหม่จะถูกเขียนลงในตาราง lakehouse ดังที่แสดงในรูปต่อไปนี้:

    แผนภาพที่แสดงว่าข้อมูลที่เปลี่ยนแปลงสามารถผสานกันแบบเพิ่มหน่วยเป็นข้อมูลการนําเข้าในเลคเฮ้าส์ได้อย่างไร

  • เลคเฮ้าส์: ในบทช่วยสอนนี้ คุณสร้างเลคเฮ้าส์รวบรวมข้อมูลลงในส่วนไฟล์ของเลคเฮ้าส์ จากนั้นสร้างตารางทะเลสาบเดลต้าในส่วนตารางของเลคเฮ้าส์

  • แปลง: สําหรับการเตรียมข้อมูลและการแปลงข้อมูล คุณจะเห็นสองวิธีที่แตกต่างกัน เราแสดงให้เห็นถึงการใช้ Notebooks/Spark สําหรับผู้ใช้ที่ชอบประสบการณ์ใช้งานโค้ดเป็นอันดับแรกและใช้ไปป์ไลน์/กระแสข้อมูลสําหรับผู้ใช้ที่ชอบประสบการณ์การใช้รหัสต่ําหรือไม่ต้องเขียนโค้ด

  • ใช้: ในการสาธิตปริมาณการใช้ข้อมูล คุณจะเห็นวิธีที่คุณสามารถใช้คุณลักษณะ DirectLake ของ Power BI เพื่อสร้างรายงาน แดชบอร์ด และคิวรีข้อมูลโดยตรงจากเลคเฮ้าส์ นอกจากนี้ เรายังสาธิตวิธีที่คุณสามารถทําให้ข้อมูลของคุณพร้อมใช้งานสําหรับเครื่องมือการรายงานของบุคคลที่สามโดยใช้จุดสิ้นสุดการวิเคราะห์ TDS/SQL ปลายทางนี้ช่วยให้คุณสามารถเชื่อมต่อกับคลังสินค้าและเรียกใช้คิวรี SQL สําหรับการวิเคราะห์ได้

ขั้นตอนถัดไป