探索呼叫中心模型（数据挖掘中级教程）

项目
11/01/2016

适用于： SQL Server 2016 Preview

您已生成了探索模型，现在可以使用 SQL Server Data Tools (SSDT) 提供的以下工具来了解有关数据的更多信息。

Microsoft 神经网络查看器**:** 此查看器位于 挖掘模型查看器 数据挖掘设计器的选项卡上，它旨在帮助您试验数据中的交互性。
Microsoft 一般内容树查看器**:** 该标准查看器提供了有关的模式的深入详细信息和统计信息通过算法生成时发现该模型。

Microsoft 神经网络查看器

查看器具有三个窗格- 输入, ，输出, ，和变量。

通过使用输出窗格中，您可以选择不同的可预测属性或因变量的值。如果您的模型包含多个可预测属性，则可以选择从属性 输出属性 列表。

变量窗格将所选方面相关的属性或变量的两个结果进行比较。彩色条直观的表示变量对目标结果的影响程度。您还可以查看变量的提升分数。提升分数的计算方法不同，具体取决于使用的挖掘模型类型，但通常会告诉您使用此属性进行预测时在模型中的提高程度。

输入窗格，您可以将影响因素添加到模型后，尝试各种假设分析方案。

使用“输出”窗格

在此初始模型中，您会希望看到各种因素是如何影响服务等级的。若要执行此操作，可以从输出属性列表中选择 Service Grade，然后通过从下拉列表中选择范围来比较不同级别的服务 值 1 和 值 2。

比较最低服务等级和最高服务等级

有关 值 1, ，选择具有最小值的范围。例如，范围 0-0-0.7 表示最低的挂断率，因此为最佳服务级别。

备注

根据模型的配置方式，此范围内的确切值可能会有所不同。
有关 值 2, ，选择具有最高值的范围。例如，值 >=0.12 的范围表示最高的挂断率，因此为最差服务级别。换句话说，在此班次期间，打电话的客户有 12% 在与代表通话之前就挂断了电话。

内容变量窗格更新以将影响结果值的属性进行比较。因此，左列显示与最佳服务等级关联的属性，右列显示与最差服务等级关联的属性。

使用“变量”窗格

在此模型中，显示的 Average Time Per Issue 是一个重要因素。此变量指示在不考虑呼叫类型的情况下应答一个呼叫所花费的平均时间。

查看和复制属性的概率和提升分数

在变量窗格中，请将鼠标悬停在第一行中的彩色条。

该彩色的条显示程度 Average Time Per Issue 服务等级的贡献。工具提示显示每个变量和目标结果的组合的总分数、概率和提升分数。
在变量窗格中，右键单击任意彩色条并选择副本。
在 Excel 工作表，用鼠标右键单击任意单元格并选择粘贴。

报表以 HTML 表格式粘贴，仅显示每个条的分数。
在不同的 Excel 表中，右键单击任意单元格，然后选择 选择性粘贴。

报表以文本格式粘贴，并包括相关统计信息（如下节所述）。

使用“输入”窗格

假设您希望看到特定因素所产生的影响，例如班次或操作员数。您可以通过选择特定变量输入窗格中，与变量窗格将自动更新，以比较两个以前给定了指定的变量的所选组。

通过更改输入属性查看对服务等级产生的影响

在输入窗格中，为属性, ，选择 Shift。
有关值, ，选择 AM。

变量窗格随之更新以显示班次时产生的影响模型 AM。所有其他选项保持不变，您将仍然比较最低服务等级和最高服务等级。
有关值, ，选择 PM1。

变量窗格随之更新以显示班次更改时产生的影响模型。
在输入窗格中，单击下方的下一个空白行属性, ，然后选择 Calls。有关值, ，选择范围，该值指示调用的最大数量。

一个新的输入条件会添加到列表中。变量窗格随之更新以显示针对一个特定班次对模型产生的影响，当调用卷处于最高。
继续更改 Shift 和 Calls 的值可以发现班次、呼叫数量和服务等级之间所有值得注意的相关性。

备注

若要清除输入窗格中，以便您可以使用不同的属性，请单击 刷新查看器内容。

解释查看器中提供的统计信息

较长的等待时间是高挂断率的强预测因子，这意味着较差的服务等级。这似乎是一个明显的结论；但挖掘模型为您提供了一些其他统计数据，以帮助您解释这些趋势。

分数︰值，该值指示该变量在区分结果的整体重要性。分数越高，变量对结果产生的影响就越大。
Value 1 的概率︰表示该值对该结果的概率的百分比。
Value 2 的概率︰表示该值对该结果的概率的百分比。
Value 1 的提升 和 Value 2 的提升︰表示用于此特定变量预测 Value 1 和 Value 2 结果的影响的分数。分数越高，使用该变量预测结果时就越准确。

下表包含首要影响因素的一些示例值。例如， value 1 的概率 为 60.6%和 value 2 的概率 为 8.30%，意味着当 Average Time Per Issue 为 44-70 分钟数的范围中，60.6%的事例发生在具有最高服务等级 (Value 1)，并且 8.30%的事例发生在具有最低服务等级 (Value 2)。

通过此信息，可以得出一些结论。较短的呼叫响应时间（范围为 44-70）会严重影响较好的服务等级（范围为 0.00-0.07）。分数 (92.35) 告诉您此变量非常重要。

但是，当您向下查看相关因素的列表时，会发现一些其他因素产生的影响更微妙、更难于解释。例如，班次似乎影响服务，但提升分数和相关概率指示班次不是主要因素。

Attribute	“值”	倾向于 < 0.07	倾向于 >= 0.12
Average Time Per Issue	89.087 - 120.000		分数︰ 100 Value1 的概率︰ 4.45% Value2 的概率︰ 51.94% Value1 的提升︰ 0.19 Value2 的提升︰ 1.94
Average Time Per Issue	44.000 - 70.597	分数：92.35 Value1 的概率：60.06% Value2 的概率：8.30% Value1 的提升：2.61 Value2 的提升：0.31

返回页首

Microsoft 一般内容树查看器

通过使用该查看器，您可以查看在处理模型时算法创建的更多详细信息。 MicrosoftGeneric 内容树查看器 挖掘模型表示为一系列节点，其中每个节点表示有关定型数据的已知的知识。该查看器可用于所有模型，但节点内容根据模型类型而不同。

对于神经网络模型或逻辑回归模型，您可能会发现 边际统计信息节点 特别有用。该节点包含有关数据中值分布的派生统计信息。如果希望获取数据摘要而无需编写许多 T-SQL 查询，该信息会很有用。前一主题中装箱值的图表派生自边际统计信息节点。

从挖掘模型中获取数据摘要

在数据挖掘设计器中 挖掘模型查看器 选项卡上，选择。
从 查看器 列表中，选择 Microsoft 一般内容树查看器。

刷新挖掘模型的视图会在左侧窗格中显示节点层次结构，并在右侧窗格中显示 HTML 表。
在 节点标题 窗格中，单击名为 10000000000000000 的节点。

任何模型中的最顶部节点都始终是模型根节点。在神经网络模型或逻辑回归模型中，紧位于该节点下方的节点是边际统计信息节点。
在 节点的详细信息 窗格中，向下滚动，直至找到 NODE_DISTRIBUTION 行。
向下滚动 NODE_DISTRIBUTION 表可以查看按照神经网络算法计算的值的分布。

若要在报表中使用该数据，可以选择并复制特定行的信息，也可以使用下列数据挖掘扩展插件 (DMX) 查询来提取节点的完整内容。

SELECT *   
FROM [Call Center EQ4].CONTENT  
WHERE NODE_NAME = '10000000000000000'

还可以使用节点层次结构和 NODE_DISTRIBUTION 表中的详细信息来遍历神经网络中的各个路径，并查看来自隐藏层的统计信息。有关详细信息，请参阅神经网络模型查询示例。