作业的 Python 脚本任务

使用 Python 脚本任务运行 Python 文件。

配置 Python 脚本任务

在开始之前,必须将 Python 脚本上传到配置作业的用户可以访问的位置。 Databricks 建议对 Python 脚本使用工作区文件。 请参阅什么是工作区文件?

注意

作业 UI 根据其他配置的设置动态显示选项。

Databricks 建议不要使用 DBFS 根或装载来存储代码或数据。 相反,可以将 Python 脚本迁移到工作区文件或卷,或使用 URI 访问云对象存储。

要开始流,请配置 Python script 任务:

  1. 在作业 UI 中导航到“任务”选项卡。
  2. 在“类型”下拉菜单中,选择“Python script”。

配置源

在“源”下拉菜单中,使用以下选项之一选择 Python 脚本的位置。

工作区

使用工作区来配置使用工作区文件存储的 Python 脚本。

  1. 单击“路径”字段。 “选择 Python 文件”对话框随即出现。
  2. 浏览到 Python 脚本,单击以突出显示该文件,然后单击“确认”

注意

可以使用此选项在 Databricks Git 文件夹中存储的 Python 脚本上配置任务。 Databricks 建议使用“Git 提供程序”选项和远程 Git 存储库来对使用作业计划的资产进行版本控制。

DBFS/ADLS

使用 DBFS/ADLS 配置存储在卷、云对象存储位置或 DBFS 根中的 Python 脚本。

Databricks 建议将 Python 脚本存储在 Unity Catalog 卷或云对象存储中。

在“路径”字段中,输入 Python 脚本的 URI。 例如,/Volumes/path/to/script.pyabfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py

Git 提供程序

使用 Git 提供程序配置存储在远程 Git 存储库中的 Python 脚本。

UI 显示的选项取决于你是否已在其他地方配置 Git 提供程序。 只有一个远程 Git 存储库可用于作业中的所有任务。 请参阅将 Git 与作业配合使用

配置 git 引用后会显示“路径”字段。

输入 Python 脚本的相对路径,例如 etl/bronze/ingest.py

重要

输入相对路径时,请不要以 /./ 开头。 例如,如果要访问的 Python 代码的绝对路径为 /etl/bronze/ingest.py,请在“路径”字段中输入 etl/bronze/ingest.py

配置计算库和依赖库

  1. 使用计算选择或配置支持脚本中逻辑的群集。

  2. 如果使用 Serverless 计算,请使用“环境和库”字段选择、编辑或添加新环境。 请参阅安装笔记本依赖项

  3. 对于所有其他计算配置,请单击“依赖库”下的“+ 添加”。 此时会显示“添加依赖库”对话框。

    • 可以选择现有库或上传新库。
    • 只能使用存储在计算配置支持的位置中的库。 请参阅 Python 库支持
    • 每个库源具有不同的流,用于选择或上传库。 请参阅
  4. 使用计算选择或配置支持脚本中逻辑的群集。

  5. 单击“依赖库”下的“+ 添加”。 此时会显示“添加依赖库”对话框。

    • 可以选择现有库或上传新库。
    • 只能使用存储在计算配置支持的位置中的库。 请参阅 Python 库支持
    • 每个库源具有不同的流,用于选择或上传库。 请参阅

完成作业配置

  1. (可选)将参数配置为作为 CLI 参数传递给 Python 脚本的字符串列表。 请参阅配置任务参数
  2. 单击“保存任务”。