Databricks 特征工程和旧版工作区特征存储的发行说明

此页面列出了 Unity Catalog 中的 Databricks 特征工程客户端和 Databricks 工作区特征存储客户端的版本。 这两个客户端在 PyPI 上都作为 databricks-feature-engineering 可用。

相关库用于:

  • 创建、读取和写入功能表。
  • 基于特征数据训练模型。
  • 将功能表发布到在线应用商店,以便提供实时服务。

有关使用情况文档,请参阅 Databricks 特征存储。 有关 Python API 文档,请参阅 Python API

Unity Catalog 中的特征工程客户端适用于 Unity Catalog 中的特征和特征表。 工作区特征存储客户端适用于工作区特征存储中的特征和特征表。 这两个客户端都预安装在用于机器学习的 Databricks Runtime 中。 通过 PyPI (pip install databricks-feature-engineering) 安装 databricks-feature-engineering 后,它们也可在 Databricks Runtime 上运行。 如果用于单元测试,两个客户端均可以在本地或 CI/CD 环境中使用。

有关提供与 Databricks Runtime 和 Databricks Runtime ML 版本的客户端版本兼容性的表,请参阅特征工程兼容性对照表。 旧版 Databricks 工作区特征存储客户端在 PyPI 上作为 databricks-feature-store 提供。

databricks-feature-engineering 0.7.0

databricks-feature-engineering 0.6.0

  • 除了现有的 Tempo 支持外,现在还支持使用本机 Spark 运行时间点联接。 非常感谢 Semyon Sinchenko 提议这个想法!
  • 现在支持将 StructType 用作 PySpark 数据类型。 联机服务不支持 StructType
  • write_table 现在支持写入启用了 Liquid 聚类的表。
  • create_tabletimeseries_columns 参数已重命名为 timeseries_column。 现有工作流可以继续使用 timeseries_columns 参数。
  • score_batch 现在支持 env_manager 参数。 有关详细信息,请参阅 MLflow 文档

databricks-feature-engineering 0.5.0

  • 通过 databricks-feature-engineering 中新的 API update_feature_spec,用户可更新 Unity Catalog 中 FeatureSpec 的所有者。

databricks-feature-engineering 0.4.0

  • 小的 Bug 修复与改进。

databricks-feature-engineering 0.3.0

databricks-feature-store 0.17.0

  • databricks-feature-store 已弃用。 此包中的所有现有模块均在 databricks-feature-engineering 0.2.0 及更高版本中提供。 有关详细信息,请参阅 Python API

databricks-feature-engineering 0.2.0

  • databricks-feature-engineering 现在包含 databricks-feature-store 中的所有模块。 有关详细信息,请参阅 Python API

databricks-feature-store 0.16.3

  • 修复了将 AutoML 与功能表配合使用时的超时 bug。

databricks-feature-engineering 0.1.3

  • UpgradeClient 中的小幅改进。

databricks-feature-store 0.16.2

  • 现在可以创建特性和功能服务终结点。 有关详细信息,请参阅特性和功能服务

databricks-feature-store 0.16.1

  • 小的 Bug 修复与改进。

databricks-feature-engineering 0.1.2 和 databricks-feature-store 0.16.0

  • 小的 Bug 修复与改进。
    • 修复了使用某些工作区设置记录的不正确的作业世系 URL。

databricks-feature-engineering 0.1.1

  • 小的 Bug 修复与改进。

databricks-feature-engineering 0.1.0

  • PyPI 上现正式推出 Unity Catalog 中的特征工程 Python 客户端

databricks-feature-store 0.15.1

  • 小的 Bug 修复与改进。

databricks-feature-store 0.15.0

  • 现在可以在记录模型时自动推断和记录输入示例。 要执行此操作,请在调用 log_model 时将 infer_model_example 设置为 True。 此示例基于 training_set 参数中指定的训练数据。

databricks-feature-store 0.14.2

  • 修复了从 MariaDB 连接器/J >=2.7.5 发布到 Aurora MySQL 时出现的 bug。

databricks-feature-store 0.14.1

  • 小的 Bug 修复与改进。

databricks-feature-store 0.14.0

从 0.14.0 开始,必须在 primary_keys 参数中指定时间戳键列。 时间戳键是“主键”的一部分,用于唯一标识特征表中的每一行。 与其他主键列一样,时间戳键列不能包含 NULL 值。

在以下示例中,DataFrame user_features_df 包含以下列:user_idtspurchases_30dis_free_trial_active

0.14.0 及更高版本

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)

0.13.1 及更低版本

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)

databricks-feature-store 0.13.1

  • 小的 Bug 修复与改进。

databricks-feature-store 0.13.0

  • 现在所需的最低 mlflow-skinny 版本是 2.4.0。
  • 如果提供的数据帧不包含所有必需的查找键,则创建训练集会失败。
  • 在 Unity Catalog 中记录使用特征表的模型时,会自动使用模型记录 MLflow 签名。

databricks-feature-store 0.12.0

  • 现在可以使用 drop_online_table API 删除联机存储。

databricks-feature-store 0.11.0

  • 在已启用 Unity Catalog 的工作区中,现在可以将工作区和 Unity Catalog 特征表发布到 Cosmos DB 联机存储。 这需要 Databricks Runtime 13.0 ML 或更高版本。

databricks-feature-store 0.10.0

  • 小的 Bug 修复与改进。

databricks-feature-store 0.9.0

  • 小的 Bug 修复与改进。

databricks-feature-store 0.8.0

  • 小的 Bug 修复与改进。

databricks-feature-store 0.7.1

  • 添加 flask 作为依赖项以修复使用 score_batch 对模型评分时缺少依赖项的问题。

databricks-feature-store 0.7.0

  • 小的 Bug 修复与改进。

databricks-feature-store 0.6.1

  • PyPI 的 Databricks 特征存储客户端的初始公共版本。