使用外部平台在 Databricks 市场中访问数据产品

本文描述了如何在没有启用 Unity Catalog 的 Databricks 工作区的情况下访问 Databricks 市场中的数据产品。 可以使用 Delta Sharing 开放共享连接器通过许多常见平台(包括 Microsoft Power BI、Microsoft Excel、pandas、Apache Spark 和非 Unity Catalog Databricks 工作区)访问市场数据。 外部平台上仅可使用表格数据集(例如,不是 Databricks 笔记本、卷或模型)。

重要

如果具有已为 Unity Catalog 启用的 Azure Databricks 工作区,则应使用 Unity Catalog 访问共享数据。 请参阅访问 Databricks 市场中的数据产品(已启用 Unity Catalog 的工作区)

开始之前的准备工作

若要在 Databricks Marketplace 上浏览数据产品列表,可以使用以下方法之一:

要请求访问数据产品,无论平台如何,都必须具有 Azure Databricks 工作区。

如果没有帐户,可以获取免费试用版。 在“开放市场”上单击“免费试用”,并按照提示开始试用。

浏览可在外部平台上访问的 Databricks 市场列表

若要查找所需的数据产品,只需在 Databricks Marketplace 中浏览或搜索数据产品列表。 只有数据集(表格数据)产品类型可以使用外部平台或非 Unity Catalog Azure Databricks 工作区进行共享。

  1. 转到 marketplace.databricks.com 或登入 Azure Databricks 工作区并单击 商城徽标“市场”。

    注意

    或者,可以使用 Azure Databricks 工作区顶部的全局搜索栏搜索市场列表。 请参阅搜索工作区项目

  2. 浏览或搜索所需的数据产品。

    可以按提供商名称、产品类型、类别、成本(免费或付费)或关键字搜索来筛选列表。 只有数据集产品类型才可用于使用外部平台进行访问。

    如果已登录到 Azure Databricks 工作区,还可以选择仅查看作为专用交换的一部分可用的专用列表。 请参阅 参与专用交换

获取对可在外部平台上访问的数据产品的访问权限

要请求访问数据产品,必须登录到 Azure Databricks 工作区,即使要在外部平台上使用共享数据产品也是如此。 某些数据产品可立即可用,其他数据产品则需要使用提供程序接口进行提供程序批准和事务完成。

访问即时可用的数据产品

即时可用的数据产品仅需要你请求它们并同意条款。 这些数据产品列在市场登陆页上的“免费即时可用”标题下,在列表磁贴上标识为“免费”,在列表详细信息页上标识为“即时可用”

  1. 在市场登陆页上找到感兴趣的商品后,单击该列表以打开列表详细信息页。

  2. 单击“获取即时访问权限”按钮。

  3. 在“更多选项”下,选择“在外部平台上”

  4. 接受 Databricks 条款和条件。

  5. 单击“获取即时访问权限”

  6. 单击“下载凭据文件”按钮以获取凭据文件,你和所在团队可以使用该文件通过第三方数据平台和非 Unity Catalog Databricks 工作区获取对共享数据的访问权限

    重要

    凭据文件只能下载一次。 下载文件后,下载按钮将保持活动状态,但后续下载会轮换到新的凭据。 旧凭据在一天后或其原始到期日期过期,二者以先到者为准。 同一时刻只能有两个凭据处于活动状态。

  7. 将凭据文件存储在安全位置中。

    不要与有权访问共享数据的用户组之外的任何人共享凭据文件。 如果需要与组织中的某人共享它,Databricks 建议使用密码管理器。

要了解如何使用所选平台访问共享数据,请参阅《使用 Delta 共享开放共享连接器访问共享数据》。

请求需要提供商批准的数据产品

某些数据产品需要提供商批准,通常是因为涉及商业事务,或者提供商可能更愿意为你自定义数据产品。 这些列表在列表详细信息页上标识为“按请求提供”,并包含“请求访问”按钮。

  1. 在市场登陆页上找到感兴趣的商品后,单击该列表以打开列表详细信息页。

  2. 单击“请求访问”按钮。

  3. 输入你的姓名、公司和对数据产品预期用途的简要说明。

  4. 单击“更多选项”并选择“在外部平台上”

  5. 接受 Databricks 条款和条件,然后单击“请求访问”。

  6. 提供商完成对请求的审查后,将通过电子邮件通知你。

    还可以在市场的“我的请求”页上监视请求的进度。 请参阅管理共享的 Databricks 市场数据产品。 但是,后续的任何交易都将使用提供商通信和支付平台。 不会在 Databricks Marketplace 上直接处理任何商业事务。

  7. 事务完成后,你会收到来自数据提供商的通知电子邮件,并且列表将会显示“下载凭据文件”按钮。 单击此按钮可下载凭据文件,你和所在团队可以使用该文件通过第三方数据平台和非 Unity Catalog Databricks 工作区获取对共享数据的访问权限。

    还可以在市场中“我的请求”下找到该列表。 当凭据已准备好可供下载时,数据产品将显示在“已安装的数据产品”选项卡上

    重要

    凭据文件只能下载一次。 下载文件后,下载按钮将保持活动状态,但后续下载会轮换到新的凭据。 旧凭据在一天后或其原始到期日期过期,二者以先到者为准。 同一时刻只能有两个凭据处于活动状态。

  8. 将凭据文件存储在安全位置中。

    不要与有权访问共享数据的用户组之外的任何人共享凭据文件。 如果需要与组织中的某人共享它,Databricks 建议使用密码管理器。

要了解如何使用所选平台访问共享数据,请参阅《使用 Delta 共享开放共享连接器访问共享数据》。

使用 Delta Sharing 开放共享连接器访问共享数据

要使用外部平台或非 Unity Catalog Azure Databricks 工作区访问已使用 Databricks 市场共享的数据集,需要使用从市场列表下载的凭据文件。 你将使用此凭据文件通过 Delta Sharing 开放共享连接器来访问共享数据。

有关使用非 Unity Catalog Azure Databricks 工作区、Apache Spark、pandas 和 Power BI 访问和读取共享数据的完整说明,请参阅《读取使用 Delta Sharing 开放共享来共享的数据(面向收件人)》。

有关 Delta Sharing 连接器的完整列表及其用法的信息,请参阅 Delta Sharing 开放源代码文档

对于使用市场共享到外部平台的限制

某些表需要使用者端的分区信息(例如,国家/地区)。 在开放共享协议中,此信息不可用于共享,因此无法访问该表。 将会返回以下错误:“收件人身份验证失败:数据受不适用于会话中当前收件人的收件人属性限制。 请与数据提供商联系以解决此问题。”