为 Microsoft 365 版 SharePoint 规划云混合搜索

适用于:yes-img-132013 yes-img-162016 yes-img-192019 yes-img-seSubscription Edition yes-img-sopSharePoint in Microsoft 365

重要

截至 2024 年 9 月,已停用 SharePoint 中用于 Microsoft 365 (入站) 的混合联合搜索功能(在 SharePoint Online 中显示来自 SharePoint 本地内容的搜索结果)。 SharePoint Server 的混合联合搜索 (出站) 、在本地 SharePoint 中查看 SharePoint Online 搜索结果的功能和云混合搜索仍可正常运行。 如果需要在 SharePoint Online 中显示来自外部内容的搜索结果,我们建议使用 Microsoft Search Graph 连接器或云混合搜索。

在 Microsoft 365 中为 SharePoint 设置 云混合搜索 需要仔细规划。 本文可帮助你设计高度可靠、安全且可缩放的云混合搜索解决方案。

用户需要哪些搜索体验?

设置云混合搜索并完成本地内容的完全爬网后,Office 365 中的搜索中心会自动显示 Microsoft 365 索引中的混合结果。

垂直搜索 - 垂直搜索将搜索结果缩小到一组特定内容,例如仅显示视频。 如果当前在 SharePoint Server 的搜索中心使用垂直搜索,则必须在 Microsoft 365 的 SharePoint 搜索中心重新创建它。

网站搜索 - 将 搜索 索引移动到 Microsoft 365 时,SharePoint Server 中的现有搜索将停止返回结果。 当用户使用与搜索索引位于同一环境的搜索中心时,搜索速度最快,因此从 Microsoft 365 搜索中心进行搜索可提供更好的体验。 如果用户需要本地 SharePoint 网站(例如 SharePoint Server 2010 中的现有工作组网站)Microsoft 365 搜索索引的结果,则可以设置 SharePoint Server 2013 或 SharePoint Server 2016 中的搜索。 在 SharePoint Server 2013 或 SharePoint Server 2016 中规划远程结果源,以便从Microsoft 365 搜索索引获取结果,并计划使用查询联合。 由于 Microsoft 365 中的 SharePoint 会处理查询,因此用户必须使用 Microsoft 365 中 SharePoint 支持的查询语法。 有关详细信息,请参阅 使用云混合搜索在本地 SharePoint 中显示 Microsoft 365 的结果

电子数据展示 - 可能需要分别在 SharePoint Server 和 Microsoft 365 版 SharePoint 中设置电子数据展示。

跨网站发布 - 跨网站发布不适用云混合搜索。

希望如何显示搜索结果?

预览 - 当用户将鼠标悬停在来自 Microsoft 365 的搜索结果上时,将显示有关内容的信息以及内容的预览。 有关来自本地的搜索结果中的内容的信息会自动显示,但必须为此内容设置预览显示。 规划 Office Web 应用 服务器场,并将 SharePoint Server 2013 配置为使用 Office Web 应用 Server。 了解如何在本地 SharePoint 中使用云混合搜索显示来自 Microsoft 365 的结果

自定义安全修整 - Microsoft 365 版 SharePoint 不支持自定义安全修整。

需要哪些搜索功能?

SharePoint Server 中可能熟悉的一些搜索功能与云混合搜索的工作方式不同。 计划将差异告知用户。

最佳匹配 - 最佳匹配是 SharePoint Server 2010 功能。 请改用 Microsoft 365 中的 SharePoint 中的查询规则。

自定义搜索范围 - 自定义搜索范围是 SharePoint Server 2010 的一项功能。 请改用 Microsoft 365 中的 SharePoint 中的结果源。

提升/降级搜索结果 - 提升/降级搜索结果是 SharePoint Server 2010 的一项功能。 请改用 Microsoft 365 中的 SharePoint 中的结果源。

删除本地搜索结果 - 在 SharePoint Server 的管理中心中,可以选择搜索服务应用程序,并使用“索引重置”选项从搜索索引中删除所有项目。 不要对云搜索服务应用程序使用此选项,此选项会从爬网数据库中删除爬网历史记录,但不会从 Microsoft 365 索引中删除本地项目,因为 SharePoint Server 中的云搜索服务应用程序与 Office 365 中的搜索索引之间没有直接通信。 这些本地项将成为 Microsoft 365 索引中的孤立项。 如果要从 Microsoft 365 搜索索引中删除所有本地元数据,请删除所有本地内容源。 该过程完成后,Microsoft 365 搜索索引中留下的任何本地项都是孤立项。

你可能熟悉 SharePoint Server 中的某些搜索功能不适用于云混合搜索。 计划通知用户。

SharePoint Server 2013 或 SharePointServer 2016 场上的多租户 - 在 Microsoft 365 版 SharePoint 中,一个 SharePoint Server 2013 或 SharePoint Server 2016 场只能附加到一个租户,因此,SharePoint 无法保留多租户 SharePoint Server 2013 或 SharePoint Server 2016 场的租户隔离。

自定义实体提取 - 自定义实体提取不适用于云混合搜索,因为 Microsoft 365 版 SharePoint 不支持自定义实体提取。

内容扩充 Web 服务 - 内容扩充 Web 服务调用不适用于云混合搜索,因为 Microsoft 365 版 SharePoint 不支持自定义实体提取。

同义词库 - 同义词库不适用于云混合搜索,因为 Microsoft 365 版 SharePoint 不支持同义词库。

设置云混合搜索时,其中一个步骤是在 SharePoint Server 2013 或 SharePoint Server 2016 搜索场上 (云 SSA) 创建云搜索服务应用程序。 创建此云 SSA 时,会在运行云 SSA 的服务器上创建默认搜索体系结构。 每个搜索服务器场只能有一个云 SSA,但可以拥有与云 SSA 结合的多个 SSA。

云混合搜索的搜索体系结构由构成拓扑的搜索组件和数据库以及托管该拓扑的服务器组成。 需要规划拓扑的爬网组件数、要托管搜索组件和数据库的服务器,以及每个服务器所需的硬件。

在开始之前,应阅读了解云混合搜索的搜索拓扑,以熟悉搜索体系结构中用于云混合搜索的搜索组件。

第 1 步:可以在 Microsoft 365 中索引多少本地内容?

对于租户在 Microsoft 365 中的 SharePoint 中拥有的每 1 TB 共用存储空间,可以在 Office 365 的搜索索引中为 100 万个本地内容项编制索引。 可以购买更多空间来增加配额,直到达到 2000 万项的阈值。 如果需要为超过 2000 万项的本地内容编制索引,请联系 Microsoft 支持部门 以增加此阈值。

第 2 步:需要什么规模的云搜索体系结构?

对于云混合搜索,建议使用在创建云 SSA 时获得的默认搜索体系结构:

显示具有服务器和搜索组件的搜索服务器场的示意图。

灰色组件在云混合搜索中处于非活动状态,但仍需要按如下所示放置在服务器上。 在 了解云混合搜索的搜索拓扑中了解非活动组件。

与仅本地企业搜索一样,可以缩放搜索体系结构。 main区别在于,对于云混合搜索,它仅与缩放爬网组件相关。 如果需要优化爬网,请按照 针对 SharePoint 2016 中特定性能要求重新设计企业搜索拓扑中的 爬网指南 (爬网指南也适用于云混合搜索) 。 请注意,如果以高速率爬网本地内容,系统可能会限制向 Microsoft 365 搜索索引的馈送,以保护 Microsoft 365 组织。 如果搜索体系结构最多包含两个爬网组件,这应会产生足够且可接受的爬网率。

第 3 步:应了解云搜索体系结构有哪些硬件要求?

建议使用使用虚拟机的搜索体系结构,但也可以使用物理计算机。 有关详细信息,请参阅 选择以物理方式或虚拟方式运行服务器

下表显示了每个应用程序服务器或数据库服务器需要的最低硬件资源量:

服务器 位于主机 存储 RAM 处理器1
应用程序服务器
A
100 GB
16 GB
1.8 GHz 4x CPU 内核
数据库服务器
B
100 GB
16 GB
1.8 GHz 4x CPU 内核

1此处特指 CPU 内核数,而不是 CPU 线程数。

除了上述内容之外:

  • 确保每个主机服务器有足够的磁盘空间用于 Windows Server 操作系统的基本安装和 SharePoint Server 程序文件。 主机服务器还需要有可用的硬盘空间进行日志记录、调试、创建内存转储等诊断、日常操作和页面归档。 通常,80 GB 的磁盘空间足以用于 Windows Server 操作系统和 SharePoint Server 程序文件。

  • 增加每个数据库服务器的 SQL 日志存储空间。 如果没有将数据库服务器设置为经常备份数据库,SQL 日志则会占用大量存储空间。 若要详细了解如何规划 SQL 数据库,请参阅存储和 SQL Server 容量规划与配置 (SharePoint Server)

对于在存储空间内分布来自搜索组件和操作系统的数据,您所决定的方式会影响搜索性能。 比较好的做法是:

  • 在具有标准性能的三个单独存储卷或分区之间拆分 Windows Server 操作系统文件、SharePoint Server 程序文件和诊断日志。

  • 在具有高性能的独立存储卷或分区上存储搜索组件数据。

提示

在主机上安装 SharePoint Server 时,可以为搜索组件数据设置自定义位置。 需要存储数据的主机上的任何搜索组件将数据存储在此位置。 若要稍后更改此位置,必须在该主机上重新安装 SharePoint Server。

请确保您的存储速度足够快,从而能够处理来自搜索组件和数据库的流量。 爬网数据库是具有 IOPS 要求的云混合搜索的搜索体系结构中的唯一组件。 爬网数据库需要中到高 IOPS,I/O 子系统上的典型负载是每秒 1 个文档 10 IOPS, (DPS) 爬网率。

云 SSA 的搜索拓扑包含与 SharePoint Server 2013 或 SharePoint Server 2016 中标准 SSA 的搜索拓扑相同的搜索组件和数据库类型。 但也有一些差异。

云混合搜索中未使用的搜索组件和数据库 - 在云混合搜索中,Microsoft 365 来处理内容、存储索引并处理分析。 云 SSA 不使用自己的内容处理组件、索引组件、分析处理组件、链接数据库或分析数据库。 这些组件和数据库处于空闲状态。

云混合搜索中搜索组件和数据库之间的交互 - 与标准 SSA 的搜索拓扑相比,搜索组件和数据库在云 SSA 的搜索拓扑中以不同方式交互:

显示内容源、具有搜索组件的搜索服务器场和 Microsoft 365 的示意图。信息经过爬网组件从内容源流到 Microsoft 365。

  1. 爬网组件从本地场获取内容,并将此内容发送到 Office 365 中的搜索索引。 它使用连接器与内容源交互,并使用爬网数据库来存储有关它爬网的项的临时和历史信息,就像常规爬网组件一样。

  2. 搜索管理组件运行对搜索至关重要的系统进程,就像标准 SSA 一样。

  3. 建议运行来自 Microsoft 365 的所有搜索,因为云混合搜索对此已进行优化。 但是,可以在 SharePoint Server 中设置网站搜索,以便从 Office 365 中的搜索索引获取搜索结果。 如果在本地网站集中设置搜索以查询 Microsoft 365 索引,则此查询处理组件会将查询从搜索框传递到 Microsoft 365 索引,并将来自 Microsoft 365 索引的结果传递到搜索框。

确定如何管理本地内容的爬网

可以通过管理爬网的方式(例如有效使用内容源、计划爬网和爬网规则)来影响爬网性能和搜索新鲜度。 管理仅限本地搜索的爬网的指南也适用于云混合搜索,请参阅 SharePoint Server 中爬网的最佳做法

确定如何同步 Active Directory

对本地内容进行爬网、分析和加密时,访问控制也会列出每个项 (ACL) 。 Microsoft 365 搜索索引将 ACL 与项一起存储,因此系统需要能够将本地用户识别为 Microsoft 365 中的同一个人。 在本地网络 (Windows Server Active Directory) 与 Microsoft 365 组织 (Microsoft Entra ID) 之间设置 Active Directory 同步后,系统将 ACL 映射并翻译给正确的用户,并且用户将从Microsoft 365 索引获得经过安全修整的搜索结果。

有两种方法可以同步 Active Directory:

  • 带有密码同步的目录同步

  • 带有单一登录 (SSO) 的目录同步

如果您选择 SSO 选项,则还可以配置密码同步作为 SSO 的备份,但是必须至少配置这两项中的一项(密码同步或 SSO)。 了解详细信息以及如何在 Microsoft 365 与本地环境的集成中配置这两种方法。

用户作为域用户安全组成员时为什么无法通过云混合搜索获得混合结果?

一些组织通过使用 Windows Server Active Directory (AD) 中的一个默认安全组(例如域用户安全组)向其本地内容分配访问权限。

默认情况下,Microsoft Entra Connect 同步工具会从同步中排除某些对象。 具有属性 IsCriticalSecurityObject=true 的安全组是该工具排除的一组对象,域用户就是此类安全组的示例。 因此,Microsoft Entra ID中不提供域用户成员的访问权限。 即使用户有权访问本地内容,他们在搜索该内容时也不会获得搜索结果。

相反,使用不具有 IsCriticalSecurityObject=true 的组(例如 Everyone 组、经过身份验证的用户组或自定义组)来分配访问权限。 有关排除对象的条件列表以及有关意外同步结果的详细信息,请参阅 使用 Azure Active Directory 同步工具时一个或多个对象不同步

你的组织是否有敏感的本地内容?

某些组织的本地内容由于法规、法律或地缘政治限制而被视为敏感内容。 在某些情况下,禁止将敏感本地内容的元数据添加到 Microsoft 365 搜索索引。 在其他情况下,可将来自敏感本地内容的元数据添加到 Microsoft 365 搜索索引,但仅允许有限数量的用户打开敏感内容的搜索结果。

以下是如何设置混合搜索以遵守这些限制的两个示例:

在 Microsoft 365 索引中允许来自敏感的本地内容的元数据时

设置和云混合搜索,精心规划敏感内容的访问权限,以便只有合适的用户在选择搜索结果时才能访问敏感内容。

在 Microsoft 365 索引中不允许来自敏感的本地内容的元数据时

结合设置混合联合搜索和云混合搜索。

显示云混合搜索、混合联合搜索和企业搜索的组合设置示意图。

  • 在 SharePoint Server 中规划云搜索服务应用程序 (云 SSA) 的内容源,这些内容涵盖除敏感内容之外的所有本地内容。 已爬网内容的元数据在 Office 365 中添加搜索索引。

  • 在 SharePoint Server 中规划企业搜索以爬网敏感的本地内容,请参阅 在 SharePoint Server 中规划搜索。 规划涵盖敏感内容的 SSA 的内容源。 已爬网敏感内容的元数据将添加到 SharePoint Server 中的搜索索引。

  • 如果用户需要本地 SharePoint 网站中的 Microsoft 365 搜索索引的结果,则可以计划 SharePoint Server 中的混合联合搜索以显示 SharePoint Server 搜索索引中的搜索结果,以及 Office 365 中搜索索引的搜索结果,详情请参阅计划 SharePoint Server 的混合联合搜索

在将云混合搜索展示给用户之前计划验证云混合搜索

创建并设置云 SSA 并完成完全爬网后,Microsoft 365 搜索中心会显示本地和联机搜索结果。 建议在单独的搜索中心验证和优化新的搜索体验,同时保持原始搜索体验不变。

规划自定义结果源,将Office 365中的搜索中心限制为仅显示Microsoft 365 内容。 下图显示了一个环境,你可以在其中验证和优化混合搜索结果的显示方式:

插图显示了内容如何从 SharePoint Server 内容场和 Microsoft 365 进入 Office 365 索引。

  1. 本地内容。 在爬网期间,此内容的元数据将添加到 Microsoft 365 搜索索引中。

  2. Microsoft 365 内容。 在爬网期间,此内容的元数据将添加到 Microsoft 365 搜索索引中。

  3. 默认(或现有的)Microsoft 365 搜索中心。 为此搜索中心创建自定义结果源,将搜索结果限制为仅显示 365 Microsoft内容。 .

  4. 新的 Microsoft 365 搜索中心,可在其中验证和优化混合搜索结果的显示方式。 此搜索中心使用默认的结果源并显示本地和 Microsoft 365 内容的搜索结果。 你设置了访问权限,因此只有测试人员和管理员才能访问此站点。

注意

尽管可以在优化时保持原始搜索体验不变,但无法保持原始 Office Delve 体验不变。 当来自本地内容的元数据位于Office 365搜索索引中时,Delve 将显示此内容。

[了解 Microsoft 365 中 SharePoint 的云混合搜索] (Microsoft 365.md) 中的 learn-about-cloud-hybrid-search-for-SharePoint

配置云混合搜索 - 路线图

SharePoint 中的混合搜索