你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

运行诊断,收集日志以对 Azure Stack Edge 设备进行故障排除

适用于:Yes for Pro GPU SKUAzure Stack Edge Pro - GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro RYes for Mini R SKUAzure Stack Edge Mini R

本文介绍如何运行诊断、收集日志包、高级安全日志以及查看日志,以排查 Azure Stack Edge 设备的上传和刷新问题。

运行诊断

若要诊断和排查任何设备错误,可以运行诊断测试。 在设备的本地 Web UI 中执行以下步骤,以运行诊断测试。

  1. 在本地 Web UI 中,转到“故障排除”>“诊断测试”。 选择要运行的测试,然后选择“运行测试”。 你将收到设备正在运行测试的通知。

    Select tests

    下表介绍了在 Azure Stack Edge 设备上运行的每个诊断测试。

    测试名称 说明
    Azure 门户连接 此测试将验证 Azure Stack Edge 设备与 Azure 门户的连接。
    Azure 一致性运行状况服务 在设备上运行的一些服务,例如 Azure 资源管理器、计算资源提供程序、网络资源提供程序和 Blob 存储服务。 这些服务共同提供 Azure 一致堆栈。 运行状况检查可确保这些 Azure 一致服务已启动并正在运行。
    Certificates 此测试将验证到期日期,以及设备和 DNS 域更改对证书的影响。 运行状况检查将验证所有证书是否已导入并应用于所有设备节点。
    Azure Edge 计算运行时 此测试将验证 Azure Stack Edge Kubernetes 服务是否按预期工作。 这包括检查 Kubernetes VM 运行状况以及设备部署的 Kubernetes 服务的状态。
    磁盘 此测试将验证所有设备磁盘是否已连接并且正常工作。 这包括检查磁盘是否安装了正确的固件并正确配置了 Bitlocker。
    电源设备 (PSU) 此测试将验证所有电源是否已连接并且正常工作。
    网络接口 此测试将验证设备上的所有网络接口是否已连接,以及该系统的网络拓扑是否符合预期。
    中心处理单元 (CPU) 此测试将验证系统上的 CPU 是否有正确的配置,以及它们是否已启动并正常运行。
    计算加速 此测试将验证计算加速在硬件和软件方面是否按预期工作。 根据设备型号,计算加速可能是图形处理单元 (GPU)、视觉处理单元 (VPU) 或现场可编程门阵列 (FPGA)。
    网络设置 此测试将验证设备的网络配置。
    Internet 连接 此测试将验证设备的 Internet 连接。
    系统软件 此测试将验证系统存储和软件堆栈是否按预期工作。
    时间同步 此测试验证设备时间设置,并检查设备上配置的时间服务器是否有效并且可访问。
    软件更新准备情况 此测试将验证配置的更新服务器是否有效并且可访问。
  2. 测试完成后,会显示结果。

    View test results

    如果未通过某项测试,会显示建议的措施的 URL。 选择 URL 查看建议的操作。

    Review warnings for failed tests

收集支持包

日志包由所有可帮助 Microsoft 支持部门排查任何设备问题的相关日志组成。 可以通过本地 Web UI 生成日志包。

执行以下步骤收集支持包。

  1. 在本地 Web UI 中,转到“故障排除”>“支持”。 选择“创建支持包”。 系统随即开始收集支持包。 收集包可能需要几分钟时间。

    Select add user

  2. 创建支持包后,选择“下载支持包”。 压缩包将下载到所选的路径。 可以解压缩该包并查看系统日志文件。

    Select add user 2

收集高级安全日志

高级安全日志可以是 Azure Stack Edge Pro 设备的软件或硬件入侵日志。

软件入侵日志

会针对入站和出站流量收集软件入侵或默认防火墙日志。

  • 当设备在工厂进行映像时,会启用默认防火墙日志记录。 当你通过本地 UI 或通过设备的 Windows PowerShell 界面创建支持包时,这些日志默认会捆绑在支持包中。

  • 如果支持包中仅需要防火墙日志来查看设备中的任何软件 (NW) 入侵,请在创建支持包时使用 -Include FirewallLog 选项。

  • 如果未提供任何特定的包含选项,防火墙日志将默认会包含在支持包中。

  • 在支持包中,防火墙日志是 pfirewall.log,位于根文件夹中。 下面是 Azure Stack Edge Pro 设备的软件入侵日志的一个示例。

    #Version: 1.5
    #Software: Microsoft Windows Firewall
    #Time Format: Local
    #Fields: date time action protocol src-ip dst-ip src-port dst-port size tcpflags tcpsyn tcpack tcpwin icmptype icmpcode info path
    
    2019-11-06 12:35:19 DROP UDP 5.5.3.197 224.0.0.251 5353 5353 59 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e88 ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e88 ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e88 ff02::fb 5353 5353 89 - - - - - - 
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9d87 ff02::fb 5353 5353 79 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP 5.5.3.193 224.0.0.251 5353 5353 59 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe08:20d5 ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe08:20d5 ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8b ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8b ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP 5.5.3.33 224.0.0.251 5353 5353 59 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8b ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8a ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8b ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    

硬件入侵日志

为了检测设备的任何硬件入侵,目前所有的机箱事件(如打开或关闭机箱)都会被记录下来。

  • 设备的系统事件日志是使用 racadm cmdlet 读取的。 然后,这些事件会经过筛选,将与机箱相关的事件筛选到 HWIntrusion.txt 文件中。

  • 若要仅获取支持包中的硬件入侵日志,请在创建支持包时使用 -Include HWSelLog 选项。

  • 如果未提供任何特定的包含选项,硬件入侵日志将默认会包含在支持包中。

  • 在支持包中,硬件入侵日志为 HWIntrusion.txt,位于根文件夹中。 下面是 Azure Stack Edge Pro 设备的硬件入侵日志的一个示例。

    09/04/2019 15:51:23 system Critical The chassis is open while the power is off.
    09/04/2019 15:51:30 system Ok The chassis is closed while the power is off.
    

排查设备上传和刷新错误

相关错误文件中包含上传和刷新过程中遇到的任何错误。

  1. 若要查看错误文件,请转到共享,然后选择该共享以查看内容。

  2. 选择“Microsoft Data Box Edge 文件夹”。 此文件夹包含两个子文件夹:

    • Upload 文件夹:包含上传错误的日志文件。
    • Refresh 文件夹:包含刷新期间发生的错误。

    下面是 refresh 文件夹中的日志文件示例。

    <root container="test1" machine="VM15BS020663" timestamp="03/18/2019 00:11:10" />
    <file item="test.txt" local="False" remote="True" error="16001" />
    <summary runtime="00:00:00.0945320" errors="1" creates="2" deletes="0" insync="3" replaces="0" pending="9" />
    
  3. 如果此文件中包含错误(在示例中已突出显示),请记下错误代码(在本例中为 16001)。 根据以下错误参考查找此错误代码的说明。

    错误代码 错误说明
    100 容器或共享名称必须包含 3 到 63 个字符。
    101 容器或共享名称只能包含字母、数字或连字符。
    102 容器或共享名称只能包含字母、数字或连字符。
    103 Blob 或文件名包含不受支持的控制字符。
    104 Blob 或文件名包含非法字符。
    105 Blob 或文件名包含过多的段(每个段由斜杠 / 分隔)。
    106 Blob 或文件名太长。
    107 Blob 或文件名中的某个段太长。
    108 文件大小超过了最大上传文件大小。
    109 Blob 或文件未正确对齐。
    110 Unicode 编码文件名或 Blob 无效。
    111 文件或 Blob 的名称或前缀是不受支持的保留名称(例如 COM1)。
    2000 etag 不匹配表示云中和设备上的块 Blob 之间存在冲突。 若要解决此冲突,请删除这些文件中的一个 - 云中的版本,或设备上的版本。
    2001 上传文件后处理文件时出现意外问题。 如果看到此错误并且此错误持续 24 小时以上,请联系支持人员。
    2002 文件已在另一个进程中打开,在关闭句柄之前无法上传。
    2003 无法打开要上传的文件。 如果看到此错误,请联系 Microsoft 支持人员。
    2004 无法连接要将数据上传到的容器。
    2005 由于帐户权限错误或已过期,无法连接到容器。 请检查访问权限。
    2006 帐户或共享已禁用,无法将数据上传到该帐户。
    2007 由于帐户权限错误或已过期,无法连接到容器。 请检查访问权限。
    2008 容器已满,无法添加新数据。 在 Azure 规范中根据类型检查受支持的容器大小。 例如,Azure 文件仅支持最大文件大小 5 TB。
    2009 无法上传数据,因为与共享关联的容器不存在。
    2997 发生了意外错误。 这是一种可以自行解决的暂时性错误。
    2998 发生了意外错误。 该错误可能会自行解决,如果持续 24 小时以上,请联系 Microsoft 支持人员。
    16000 无法关闭此文件。
    16001 无法关闭此文件,因为它已在本地系统上存在。
    16002 无法刷新此文件,因为它未完全上传。

后续步骤