了解 Microsoft Fabric 仓库的 V 顺序

项目
08/08/2024

适用于： Microsoft Fabric 中的仓库

Microsoft Fabric 存储中的仓库针对所有用户数据均使用 Delta Lake 表格式。除了 Delta 格式提供的优化之外，仓库还对存储应用优化，以在分析方案中提供更快的查询性能，同时符合 Parquet 格式。本文介绍 V 顺序写入优化、其优点以及控制方法。

什么是 V-Order？

V-Order 是一种针对 Parquet 文件格式的写入时间优化，可以在 Microsoft Fabric 计算引擎（如 Power BI、SQL、Spark 等）下实现快速读取。

Power BI 和 SQL 引擎利用 Microsoft Verti-Scan 技术和 V 排序的 parquet 文件来实现类内存中的数据访问时间。 Spark 和其他非 Verti-Scan 计算引擎也受益于经过 V-Order 的文件，读取时间平均加快 10%，某些方案高达 50%。

V 顺序的工作原理是对 Parquet 文件应用特殊排序、行组分布、字典编码和压缩。因此，要从存储中读取数据，计算引擎需要更少的网络、磁盘和 CPU 资源，从而提供成本效益和性能。它 100% 兼容开源 parquet 格式，所有 parquet 引擎都可以将其作为常规 parquet 文件进行读取。

性能注意事项

在决定禁用 V 顺序之前，请考虑以下事项：

Microsoft Fabric Direct Lake 模式取决于 V 顺序。
在仓库中，V 顺序对性能的影响可能会因表架构、数据卷、查询和引入模式而异。
在决定禁用之前，请确保测试 V 顺序如何影响数据引入和查询性能。请考虑使用源代码管理创建测试仓库的副本，在副本上禁用 V 顺序，并执行数据引入和查询任务以测试性能影响。

V 顺序可能无效的方案

在决定禁用 V 顺序是否适合前，请考虑 V 顺序对性能的影响。

注意

目前，禁用 V 顺序只能在仓库级别完成，且不可逆：禁用后，无法再次启用。如果用户选择在 Fabric Warehouse 中禁用 V 顺序，则必须考虑性能。

对于写入密集型仓库而言，例如专用于临时数据（数据引入过程中产生）的仓库，V 顺序非常有效。系统通常会删除临时表并重新创建（或截断），以处理新数据。然后，临时表可能只读取一两次，这可能无法证明通过应用 V 顺序添加的引入时间存在合理性。通过禁用 V 顺序并缩短引入数据的时间，可能会减少在引入作业期间处理数据的总体时间。在这种情况下，应将过渡仓库与面向用户的主要仓库分段，以便分析查询和 Power BI 可以利用 V 顺序的优势。

通过

了解 Microsoft Fabric 仓库的 V 顺序

什么是 V-Order？

性能注意事项

V 顺序可能无效的方案

反馈

其他资源

通过

了解 Microsoft Fabric 仓库的 V 顺序

什么是 V-Order？

性能注意事项

V 顺序可能无效的方案

相关内容

反馈

其他资源