你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

用于数据科学家的 Team Data Science Process

本文就使用 Azure 技术实现全面的数据科学解决方案时应设定的目标提供指导和培训。

数据科学家的目标

此列表描述了使用 Team Data Science Process (TDSP) 的数据科学家的关键目标:

这些目标对于准备使用 TDSP 至关重要。 TDSP 概述了有效管理和启动数据科学项目的综合方法。 本文介绍每个目标的重要性,并提供指向相关 Azure 资源的链接。

了解分析工作负载

  • 确定要求:此步骤包括了解分析工作负载的特定需求和目标。 它有助于确定要回答的业务问题和要解决的问题。

  • 定义范围:此步骤明确定义项目的范围,以帮助团队专注于相关的数据和分析任务。

  • 分配资源:此步骤包括分析工作负载以确定所需的资源,例如计算能力、存储和人类专业知识。

TDSP 中的集成

Azure 有许多资源可用于分析工作负载。 以下列表提供了 Azure 体系结构中的推荐资源。

  • 规划和执行:使用 Azure 的云采用框架进行战略规划和治理。 此框架可确保分析工作负载与业务目标和合规要求保持一致。 它还建立在 TDSP 中使用的相对简单的框架之上。 云采用框架的功能包括:

    • 战略规划:提供战略指导,使云采用与业务目标保持一致。 战略规划意味着设计分析工作负载以满足组织目标。

    • 治理和合规性:提供治理和合规性框架。 治理和合规性框架使数据处理和分析工作负载符合法规要求和组织策略。

    • 迁移和现代化:指导将现有分析工作负载迁移到 Azure,以帮助确保在新环境中实现最小的中断和最佳性能。

    • 管理和操作:概述管理和操作云资源的最佳做法,这有助于确保高效可靠的分析工作负载操作。

    • 优化:提供持续优化工作负载的工具和方法。 优化意味着可以有效地使用资源并有效地管理成本。

  • 开发和协作:使用 Azure Synapse Analytics 开发、测试和部署分析解决方案,并为数据科学家和工程师提供协作环境。 建议使用 Azure Synapse Analytics 平台来处理大数据(如 1 TB 及以上),以及机器学习和人工智能 (AI) 建模。 Azure Synapse Analytics 的功能包括:

    • 统一体验:提供统一的体验,用于引入、准备、管理和提供数据,以满足即时商业智能和机器学习需求。

    • 数据集成:与各种数据源无缝集成,可实现全面的数据引入和数据处理功能。

    • 大数据和数据仓库:结合了大数据和数据仓库功能,使您能够高效地在大型数据集上运行复杂的查询。

    • 可伸缩性:根据工作负载需求缩放计算资源,确保您能够有效地处理不同的数据处理负载。

    • 协作:通过提供共享工作区和集成开发环境 (IDE),促进数据科学团队内部的协作。

    • 分析:支持高级分析和机器学习,内置集成机器学习和 Power BI 等服务。

  • 监视和优化:使用 Azure Monitor 跟踪性能、识别问题并优化分析工作负载。 Azure Monitor 有助于实现高可用性和可靠性。 Azure Monitor 的功能包括:

    • 数据集合:从各种源(包括 Azure 资源、应用程序和操作系统)收集指标和日志。

    • 监视:通过监视 CPU 使用率、内存使用情况和吞吐量等指标,深入了解分析工作负载的性能和运行状况。

    • 诊断:通过诊断日志和活动日志帮助识别数据处理管道和工作负载中的问题和异常。

    • 警报:根据特定指标或日志数据配置警报,并及时通知你可能影响分析工作负载的性能或可靠性的潜在问题。

    • 可视化:提供可自定义的仪表板和工作簿来可视化数据,这有助于了解工作负载性能中的趋势和模式。

使用 TDSP 生命周期

使用 TDSP 可构建数据科学项目开发的生命周期。

  • 结构化方法:为运行数据科学项目提供了一个结构化的框架,并培养一种系统且纪律严明的方法。

  • 协作:通过定义明确的角色和职责,促进团队成员之间的协作。

  • 最佳做法:结合行业最佳做法,帮助你高效、有效地执行项目。

面向数据科学家的集成

TDSP 是一个经过同行评审的体系结构框架,为数据科学家提供了一个生成 AI 和数据科学模型的特定框架。

使用 Azure 机器学习

使用机器学习来构建和部署机器学习模型。 机器学习是 TDSP 生命周期的五个阶段中每个阶段的主要推荐 Azure 资源:业务理解、数据采集和理解、建模、部署和客户验收。 机器学习的功能包括:

  • 高级分析:提供强大的工具和服务来生成、训练和部署机器学习模型。

  • 可伸缩性:提供可缩放的计算资源,使团队能够处理大型数据集和复杂模型。

  • 集成:与其他 Azure 服务完美集成,并促进从数据引入到部署的无缝工作流。

下面介绍了机器学习如何支持 TDSP 的每个阶段:

了解业务

在此初始阶段,机器学习可帮助你了解业务需求并定义数据科学项目的目标。

  • 项目工作区:提供项目工作区,团队可以在其中协作和共享文档。 协作有助于每个人与业务目标保持一致。

  • 试验跟踪:支持文档记录,并能够跟踪指导数据科学项目的初始假设和业务指标。

  • 与 Azure DevOps 集成:管理项目工作流、用户情景和任务。 Azure DevOps 可帮助将业务理解映射到可操作项。

数据采集和理解

在此阶段,机器学习可帮助你收集和浏览数据,以了解其结构和与业务问题的相关性。

  • 数据集成:机器学习与 Azure Data Lake、Azure SQL 数据库和其他数据服务无缝集成,从而便于从各种源轻松引入数据。

  • 数据标签:内置数据标签工具,可帮助注释数据集,这对监督式学习模型很有用。

  • 探索性数据分析 (EDA):机器学习中的 Jupyter 笔记本和集成的 Python/R 环境使 EDA 能够全面了解数据分布、识别模式并检测异常。

建模

在此阶段,数据科学家构建和训练机器学习模型以解决业务问题。

  • 自动化机器学习:自动选择最佳算法并优化超参数,以加快模型开发过程。

  • 自定义建模:使用 TensorFlow、PyTorch 和 Scikit-learn 等常用框架支持自定义模型开发。

  • 试验和版本控制:支持并行运行多个试验、跟踪结果和版本控制模型,这使得比较和选择最佳模型变得更加容易。

  • 超参数优化:通过内置的自动超参数调优支持优化模型性能。

部署

在此阶段中,在开发和验证模型后,机器学习将其部署到生产环境中使用。

  • 模型部署:提供各种部署选项,包括 Azure Kubernetes 服务 (AKS) 和边缘设备,这些设备可实现灵活的部署策略。

  • 终结点管理:提供用于管理实时和批量预测终结点的工具,并帮助提供可扩展和可靠的模型服务。

  • 持续集成和持续部署 (CI/CD):与 Azure DevOps 集成,后者支持机器学习模型的 CI/CD,以构建从开发到生产的可重复过渡。

客户验收

在这个最后阶段,重点是使用机器学习使部署的模型满足业务需求并交付价值。

  • 模型监控:提供全面的监控功能,用于跟踪模型性能、检测偏移,并随着时间的推移保持模型的准确性和相关性。

  • 反馈循环:支持实现反馈循环,可在其中使用和查看预测来重新训练模型,并持续提高模型准确性和相关性。

  • 报告和可视化:与笔记本、Power BI 和其他可视化工具集成,以创建仪表板和报表,并向利益干系人展示模型结果和见解。

  • 安全性和合规性:帮助保持模型和数据符合法规要求,并提供管理数据隐私和安全的工具。

了解数据传输和数据存储的基础知识

有效的数据传输和存储是安全地管理大量数据的关键基础。

  • 数据管理:帮助您以最有效、最合规和最高效的方式管理大量数据。

  • 辅助功能:帮助团队成员和分析工具轻松访问数据,这对于协作和实时处理至关重要。

  • 合规性和安全性:帮助数据处理符合法律和法规要求,并保护敏感数据。

将数据传输和数据存储集成到 TDSP 中

Azure 有许多资源可用于数据传输和数据存储。 以下列表提供了 Azure 体系结构中的推荐资源。

Azure 数据传输选项:包括各种方法和工具,用于高效地将数据移入和移出 Azure,以适应不同的数据需求和数据大小。

  • Azure Data Box:通过使用物理设备将大规模批量数据传输到 Azure,而不依赖于 Internet。 它在网络带宽有限的情况下安全地传输数 TB 的数据。

  • Azure 导入/导出服务:通过将硬盘驱动器直接寄送到 Azure 数据中心,支持将大量数据传输到 Azure。 此服务对于通过网络上传不可行的初始数据迁移非常有用。

  • Azure 数据工厂:自动执行和处理数据传输。 数据工厂是一项基于云的数据集成服务,可对数据移动和转换进行安排并使其实现自动化。 它支持复杂的 ETL(提取、转换、加载)过程,并将来自各种源的数据集成到 Azure 中,以便执行分析和机器学习任务。

  • 网络传输:包括使用 Azure ExpressRoute 进行基于 Internet 的高速传输。 网络传输在本地基础结构和 Azure 之间提供专用连接,有助于安全快速地传输数据。

Azure 数据库迁移服务:处理数据库到 Azure 的迁移,以最大程度地减少停机时间并支持数据完整性。 数据库迁移服务是一项完全托管的服务,旨在实现从多个数据库源到 Azure 数据平台的无缝迁移,并且最大限度地减少停机时间(或联机迁移)。 它提供了以下优点:

  • 自动化迁移:通过提供将本地数据库移动到 SQL 数据库、Azure Database for MySQL 和 Azure Database for PostgreSQL 的自动化工作流,简化了迁移过程。

  • 连续复制:支持连续数据复制,这可以最大程度地减少停机时间,并在迁移过程中使数据保持最新。

  • 兼容性:支持兼容性检查,并建议针对目标 Azure 环境进行优化,以使过渡无缝高效。

  • 评估工具:提供用于评估数据库迁移准备情况的工具,以识别潜在问题并提供解决问题的建议。

Azure 存储:提供针对不同类型的数据和用例量身定制的可缩放、安全和持久的存储解决方案。 支持以下存储类型:

  • Blob 存储:存储非结构化数据,例如文档、图像、视频和备份。 它非常适合需要为机器学习模型存储大型数据集的数据科学家。

  • Azure Data Lake Storage:处理大数据分析。 Data Lake Storage 提供分层命名空间和与 Hadoop 的兼容性,使其适用于大规模数据分析项目。

  • Azure 表存储:存储半结构化数据的 NoSQL 键值,适用于需要无架构设计的应用程序。

  • Azure 文件存储:管理通过标准 SMB 协议访问的云中的文件共享,这对于共享存储需求非常有用。

  • Azure 队列存储:提供应用程序组件之间的消息传送,这对于分离和缩放服务非常有用。

提供数据源文档

  • 数据透明度:数据源文档提供了数据来源、质量和局限性的透明度。

  • 可重现性:适当的文档可帮助其他团队成员或利益干系人理解和重现数据科学过程。

  • 数据集成:数据集成意味着通过清楚地了解数据的源和结构,有效地集成各种数据源。

将数据源文档集成到 TDSP 中

Azure 有许多资源可用于数据源文档,包括笔记本。 以下列表提供了 Azure 体系结构中的推荐资源。

Azure 数据目录是一个企业范围的元数据目录,使数据资产发现变得简单。 它有助于记录数据源及其特征,并提供以下优势:

  • 元数据管理:使用户能够注册数据源并添加包括描述、标记和注释的元数据。

  • 数据源发现:为用户提供可搜索目录,以便查找和了解组织中可用的数据源。

  • 协作:使用户能够共享有关数据源的见解和文档,从而改善团队成员之间的协作。

  • 数据源信息:自动提取和记录有关数据源的信息。 它提取的信息包括架构、表、列和关系。

Azure Purview:提供统一的数据治理服务,可帮助管理和治理整个组织中的数据。 它提供了以下功能:

  • 数据映射和世系:帮助记录不同系统之间的数据流和世系,从而清晰地了解数据的来源及其转换方式。

  • 数据目录:提供一个可搜索的数据目录,其中包含丰富的元数据和数据分类,类似于 Azure 中的数据目录。

  • 业务术语表:帮助创建和维护业务术语表,以保持术语的一致性,并促进整个组织的理解。

  • 见解和分析:提供对数据使用情况的见解,并帮助识别数据质量问题,从而改进文档流程。

使用工具来处理分析。

  • 效率:正确的分析处理工具可以提高数据分析的效率和速度。

  • 功能:不同的工具提供各种功能,例如数据可视化、统计分析和机器学习,这对于综合性数据科学至关重要。

  • 工作效率:专门工具可以通过自动执行重复性任务并提供高级分析功能,显著提高数据科学家的工作效率。

将分析处理集成到 TDSP 中

Azure 提供了许多可用于分析处理的服务,其中机器学习是主要的推荐服务。 以下列表为需要机器学习以外功能的 Azure 体系结构提供了推荐服务。

Azure Synapse Analytics 使您能够处理大量的关系数据和非关系数据。 它是一项集成式分析服务,可加快在数据仓库和大数据系统中获得见解的时间。 Azure Synapse Analytics 提供以下功能:

  • 数据集成:集成来自各种来源的数据,实现无缝的数据引入和数据处理。

  • SQL 数据仓库:提供具有高性能查询的企业数据仓库功能。

  • Apache Spark:为大数据处理提供 Spark 池,支持大规模数据分析和机器学习。

  • Synapse Studio:使数据科学家能够协作构建端到端分析解决方案。 Synapse Studio 是一个集成开发环境 (IDE)。

Azure Databricks 是一个基于 Apache Spark 的分析平台,已针对 Microsoft Azure 云服务平台进行优化,提供以下功能:

  • 协作式笔记本:支持协作工作区,数据科学家可以在其中编写代码、运行试验和共享结果。

  • 可缩放的计算:根据工作负载需求自动缩放计算资源,并优化成本和性能。

  • 机器学习:为机器学习提供内置库(包括 MLlib、TensorFlow 和 Keras),以简化模型开发和训练。

数据工厂:通过其基于云的数据集成服务协调数据移动和转换。 数据工厂支持以下功能:

  • ETL 管道:使您能够创建 ETL(提取、转换、加载)管道来处理和准备数据以供分析。

  • 数据流:提供可视化数据流创作,用于设计和运行数据转换过程,而无需编写代码。

  • 集成:连接到各种数据源,包括本地和基于云的数据存储。 此功能提供全面的数据集成。

Azure 流分析处理快速移动的数据流。 流分析是一种实时分析服务,可提供以下功能:

  • 流处理:实时处理来自各种源的数据,例如 IoT 设备、传感器和应用程序。

  • 基于 SQL 的查询:使用熟悉的基于 SQL 的语言来定义流处理逻辑,使数据科学家能够访问它。

  • 集成:与其他 Azure 服务(例如事件中心和 IoT 中心)集成,实现无缝数据引入和处理。

总结

此顺序列表可帮助你全面准备使用 TDSP:

  1. 明确了解项目要求和范围。

  2. 采用结构化协作方法来执行项目。

  3. 使用高级工具和服务进行机器学习和分析。

  4. 确保高效且安全的数据管理。

  5. 通过文档保持透明度和可重现性。

  6. 使用适当的工具来提高数据处理的效率和有效性。

准备对于交付符合业务目标并遵循最佳做法的成功数据科学项目至关重要。

Microsoft Learn 训练路径

无论你是新手还是有经验的专家,我们的自我指导式方法都可以帮助你更有自信地根据自己的节奏,更快地实现目标。 通过交互式模块和路径培养技能,或向讲师学习。 按你的方式学习和成长。

Microsoft Learn 将其培训内容分为三个技能级别:初学者、中级和高级。 了解这些区别对于选择适当的学习路径以匹配技能水平和职业目标至关重要。

初级

  • 目标受众:对所涉及的技术或概念不熟悉的个人。
  • 内容:对概念、基本技能和入门所需的初始步骤的基本介绍。 通常涵盖核心原理和基础知识。

目的

  • 在新的领域打下坚实的基础
  • 帮助学习者理解基本概念和术语
  • 让学习者准备好阅读更复杂的文章

初学者学习路径

中级

  • 目标受众:对技术有基本了解并希望加深其知识的个人。
  • 内容:更详细和实用的技能,包括动手练习和真实场景。 这需要对主题进行更深入的探讨。

目的

  • 弥合基本理解与高级熟练程度之间的差距
  • 使学习者能够处理更复杂的任务和方案
  • 让学习者为认证考试或专业角色做好准备

中级学习路径

高级

  • 目标受众:经验丰富的专业人士,希望完善自己的技能,处理复杂的高级任务。
  • 内容:深入技术培训、先进技术,专业学科全面覆盖。 它通常包括专家级的问题解决和优化策略。

目的

  • 提供特定领域的专业知识
  • 让学习者为专家级认证和高级职业角色做好准备
  • 使学习者能够在自己的领域内领导项目并创新

专家学习路径

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

首席作者:

要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤

AI 学习中心继续执行 AI 之旅。