Databricks 特徴エンジニアリングとレガシ ワークスペース特徴量ストアのリリース ノート

このページでは、Unity Catalog の Databricks Feature Engineering クライアントと Databricks ワークスペース Feature Store クライアントのリリースの一覧を示します。 どちらのクライアントも PyPI で、databricks-feature-engineering として使用できます。

ライブラリは次のような目的で使用されます。

  • 特徴テーブルの作成、読み取り、書き込みを行う。
  • 特徴量データでモデルをトレーニングします。
  • 特徴テーブルをオンライン ストアに公開してリアルタイムで提供する。

使用法のドキュメントについては、「Databricks Feature Store」を参照してください。 Python API のドキュメントについては、「Python API」を参照してください。

Unity Catalog の Feature Engineering クライアントは、Unity Catalog の特徴と特徴テーブルに対して機能します。 ワークスペース Feature Store クライアントは、ワークスペース Feature Store の特徴と特徴テーブルに対して機能します。 いずれのクライアントも Databricks Runtime for Machine Learning にプレインストールされています。 これらのクライアントは、PyPI (pip install databricks-feature-engineering) から databricks-feature-engineering をインストールした後、Databricks Runtime でも実行できます。 単体テストの場合にのみ、両方のクライアントはローカルまたは CI/CD 環境で使用できます。

Databricks Runtime と Databricks Runtime ML のバージョンとクライアント バージョンの互換性を示す表については、「特徴エンジニアリングの互換性マトリックス」を参照してください。 Databricks ワークスペース Feature Store クライアントの古いバージョンは、PyPI で databricks-feature-store として使用できます。

databricks-feature-engineering 0.6.0

  • Tempo での既存のサポートに加えて、ネイティブ Spark でのポイントインタイム結合の実行がサポートされるようになりました。 アイデアを提案してくれた Semyon Sinchenko に感謝します。
  • StructType が PySpark データ型としてサポートされるようになりました。 StructType はオンライン提供ではサポートされていません。
  • write_table では、リキッド クラスタリングが有効になっているテーブルへの書き込みがサポートされるようになりました。
  • create_tabletimeseries_columns パラメーターの名前が timeseries_column に変更されました。 既存のワークフローでは、引き続き timeseries_columns パラメーターを使用できます。
  • score_batch では env_manager パラメーターがサポートされるようになりました。 詳細については MLflow のドキュメントを参照してください。

databricks-feature-engineering 0.5.0

  • ユーザーが Unity Catalog の FeatureSpec の所有者を更新できるようにする databricks-feature-engineering の新しい API update_feature_spec です。

databricks-feature-engineering 0.4.0

  • 小さなバグ修正と機能強化。

databricks-feature-engineering 0.3.0

  • log_model では、新しい databricks-feature-lookup PyPI パッケージが使用されるようになりました。ここでは、オンライン モデル サービスのパフォーマンスが向上しています。

databricks-feature-store 0.17.0

  • databricks-feature-store は非推奨とされます。 このパッケージ内のすべての既存モジュールは、databricks-feature-engineering のバージョン 0.2.0 以上で使用できます。 詳しくは、「Python API」をご覧ください。

databricks-feature-engineering 0.2.0

  • databricks-feature-engineering には databricks-feature-store からのすべてのモジュールが含まれるようになりました。 詳しくは、「Python API」をご覧ください。

databricks-feature-store 0.16.3

  • 特徴量テーブルで AutoML を使用したときのタイムアウトのバグを修正しました。

databricks-feature-engineering 0.1.3

  • UpgradeClient の小さな機能強化。

databricks-feature-store 0.16.2

  • これで Feature Serving および Function Serving エンドポイントを作成できるようになりました。 詳細については、「Feature Serving および Function Serving」を参照してください。

databricks-feature-store 0.16.1

  • 小さなバグ修正と機能強化。

databricks-feature-engineering 0.1.2 および databricks-feature-store 0.16.0

  • 小さなバグ修正と機能強化。
    • 特定のワークスペースのセットアップと共にログに記録される不適切なジョブ系列 URL を修正しました。

databricks-feature-engineering 0.1.1

  • 小さなバグ修正と機能強化。

databricks-feature-engineering 0.1.0

  • Unity Catalog Python クライアントから PyPI への機能エンジニアリングの一般提供リリース

databricks-feature-store 0.15.1

  • 小さなバグ修正と機能強化。

databricks-feature-store 0.15.0

  • モデルをログに記録する際に、入力例を自動的に推論してログに記録することができるようになりました。 これを行うには、log_model を呼び出す際に infer_model_exampleTrue に設定します。 その例は、training_set パラメータ内で指定されたトレーニング データに基づきます。

databricks-feature-store 0.14.2

  • MariaDB Connector/J >=2.7.5 から Aurora MySQL に発行する際のバグを修正しました。

databricks-feature-store 0.14.1

  • 小さなバグ修正と機能強化。

databricks-feature-store 0.14.0

0.14.0 以降では、primary_keys 引数にタイムスタンプ キー列を指定する必要があります。 タイムスタンプ キーは、特徴テーブルの各行を一意に識別する "主キー" の一部です。 他の主キー列と同様に、タイムスタンプ キー列に NULL 値を含めることはできません。

次の例では、DataFrame user_features_df に、user_idtspurchases_30dis_free_trial_active の各列が含まれています。

0.14.0 以降

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)

0.13.1 以前

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)

databricks-feature-store 0.13.1

  • 小さなバグ修正と機能強化。

databricks-feature-store 0.13.0

  • 最低限必要なmlflow-skinnyバージョンは、現在 2.4.0 です。
  • 指定された DataFrame に必要なすべての参照キーが含まれていない場合、トレーニング セットの作成は失敗します。
  • Unity Catalog の特徴テーブルを使用するモデルをログに記録すると、MLflow シグネチャがモデルと共に自動的にログに記録されます。

databricks-feature-store 0.12.0

  • drop_online_table API を使用してオンライン ストアを削除できるようになりました。

databricks-feature-store 0.11.0

  • Unity Catalog 対応ワークスペースで、ワークスペースと Unity Catalog の両方の特徴テーブルを Cosmos DB オンライン ストアに発行できるようになりました。 これには、Databricks Runtime 13.0 ML 以上が必要です。

databricks-feature-store 0.10.0

  • 小さなバグ修正と機能強化。

databricks-feature-store 0.9.0

  • 小さなバグ修正と機能強化。

databricks-feature-store 0.8.0

  • 小さなバグ修正と機能強化。

databricks-feature-store 0.7.1

  • score_batch でモデルをスコアリングする際に不足している依存関係の問題を修正するために、flask を依存関係として追加します。

databricks-feature-store 0.7.0

  • 小さなバグ修正と機能強化。

databricks-feature-store 0.6.1

  • Databricks Feature Store クライアントの PyPI への初期公開リリース。