了解 Microsoft Fabric 仓库的 V 顺序

适用于: Microsoft Fabric 中的仓库

Microsoft Fabric 存储中的仓库针对所有用户数据均使用 Delta Lake 表格式。 除了 Delta 格式提供的优化之外,仓库还对存储应用优化,以在分析方案中提供更快的查询性能,同时符合 Parquet 格式。 本文介绍 V 顺序写入优化、其优点以及控制方法。

什么是 V-Order?

V-Order 是一种针对 Parquet 文件格式的写入时间优化,可以在 Microsoft Fabric 计算引擎(如 Power BI、SQL、Spark 等)下实现快速读取。

Power BI 和 SQL 引擎利用 Microsoft Verti-Scan 技术和 V 排序的 parquet 文件来实现类内存中的数据访问时间。 Spark 和其他非 Verti-Scan 计算引擎也受益于经过 V-Order 的文件,读取时间平均加快 10%,某些方案高达 50%。

V 顺序的工作原理是对 Parquet 文件应用特殊排序、行组分布、字典编码和压缩。 因此,要从存储中读取数据,计算引擎需要更少的网络、磁盘和 CPU 资源,从而提供成本效益和性能。 它 100% 兼容开源 parquet 格式,所有 parquet 引擎都可以将其作为常规 parquet 文件进行读取。

性能注意事项

在决定禁用 V 顺序 之前,请考虑以下事项:

V 顺序可能无效的方案

在决定禁用 V 顺序是否适合前,请考虑 V 顺序对性能的影响。

注意

目前,禁用 V 顺序只能在仓库级别完成,且不可逆:禁用后,无法再次启用。 如果用户选择在 Fabric Warehouse 中禁用 V 顺序,则必须考虑性能。

对于写入密集型仓库而言,例如专用于临时数据(数据引入过程中产生)的仓库,V 顺序非常有效。 系统通常会删除临时表并重新创建(或截断),以处理新数据。 然后,临时表可能只读取一两次,这可能无法证明通过应用 V 顺序添加的引入时间存在合理性。 通过禁用 V 顺序并缩短引入数据的时间,可能会减少在引入作业期间处理数据的总体时间。 在这种情况下,应将过渡仓库与面向用户的主要仓库分段,以便分析查询和 Power BI 可以利用 V 顺序的优势。