购物篮分析(Excel 表分析工具)

购物篮工具

购物篮分析工具可帮助你查找associations数据。 关联可以指出哪些项经常被同时购买。 在数据挖掘中,此方法是一种众所周知的方法,称为 市场篮分析,用于分析客户在非常大的数据集中的购买行为。 商家可以使用该信息向客户推荐相关产品,并通过将这些产品置于网页、目录或货架中的临近位置来进行促销。

若要使用购物篮分析,要分析的项必须通过交易 ID 进行关联。 例如,如果要分析通过某个网站接收的所有订单,则每个订单都会有一个订单 ID 或交易 ID,它与一个或多个购买项相关联。

向导完成数据分析后,会创建两个新工作表: 购物篮项组购物篮规则

“购物篮项组”工作表包含经常出现在交易中的项列表。 这些常见分组称为 项集。 工作表还包含支持和提升等统计信息,以帮助您了解项集的重要性。 如果提供了价格信息,该工作表还将创建所有相关项的金额之和,以指示这些交易的总金额。

可以在报表中对各列进行筛选和排序。 例如,你可能只想查看包含 2 个或更多产品的项集,或者按 平均购物篮值对商品集进行排序。

购物篮规则” 工作表使用派生自分析的统计信息来创建有关项目关联方式的规则。 例如,规则可能是,如果客户购买产品 A,他们很可能购买产品 B。这些规则可用于创建建议。 每个规则都有支持的统计信息,可帮助您评估该规则的潜在强度,以便仅在该规则超出了某个概率阈值时才进行推荐。

使用购物篮分析工具

  1. 打开一个包含适当数据的 Excel 表。 在示例工作簿中,单击“关联”工作表。

  2. 单击“ 购物篮分析”。

  3. 在“ 购物篮分析 ”对话框中,选择包含事务 ID 的列,然后选择包含要分析的项或产品的列。

  4. 可以选择添加包含产品金额的列。

  5. 单击“高级”打开“ 高级参数设置 ”对话框。 增加 “最低支持” 的值以减少分组为项集的产品数。 增加 最小规则概率 以筛选出非常常见的项集。

要求

若要使用 购物篮分析工具 ,必须将数据存储在 Excel 表中,并且必须包含以下列:

  • 包含表示该交易的唯一 ID 的列。 该 ID 可以是数值或文本,只要每行中的值是唯一的。

  • 包含要分析的项或产品的列。

  • 表示每一项的价格或金额的可选数值列。 此列用于聚合每个产品所在项集的金额,这有助于了解某些交易的总金额。

如何关联项

要分析的各项必须按某种表示事例、交易或时机的标识符进行分组。 因此,可以选择此交易 ID 列作为标识符,而不是客户 ID 号或产品 ID 号。

该工具检查每个交易中的产品时,会为所找到的每个项组合创建一个项集。 例如,如果一位客户一次购买了 3 件产品,那么就有 7 个可能的项集:每个产品自身、每个产品与另一件产品的组合以及全部三种产品的组合。

注意

可以筛选出包含单个项的项集,但是该工具需要对这些项集进行分析,才能为数据集生成有意义的统计信息。

每个项集的支持是按购买该项集的客户数来计算的。 在上面提到的示例中,如果只有一位客户购买了 3 件商品,即有 7 个可能的项集,则全部 7 个项集的支持值都为 1。 随着客户数的增加,以及可能的组合数的增长,将需要更长的时间来处理报表。 但是,某些项集的支持值可能非常小。 因此,您可能需要限制每个项集中的项数不超过 3 个,从而减少生成该报表所需的时间。 通常,较大的项集具有较低的支持,所以此折中方案是可接受的。

指定最低支持和规则概率

随着数据集的增长,可能的项分组数和规则数将会过于庞大。 但是,您可以控制由该工具输出的结果数,从而只将重点放在最有价值的项集和规则上。 可以在 “购物篮高级参数”对话框中设置这些选项。

最低支持

最低支持 意味着必须包含特定项集才能使项集被视为重要的事务数。 例如,除非某个项集在至少 10 个不同的交易中被购买过,否则您不会对它感兴趣。 有两种方法可以控制项集重要性的阈值,这两种方法都使用 Minimum 支持 参数。

作为绝对值: 输入一个数字,表示包含目标项的事务计数。 例如,如果输入 10,则至少出现在 10 个购物篮中的任何项集都包括在结果中。

以百分比表示: 输入表示整个项集集合的百分比的数字。 例如,如果指定 10,将对所有项集计数,目标项集必须在项集总数中至少占 10%。 如果数据集非常大,则使用百分比(而不是计数)有助于将重点放在最重要的项分组上。

注意

请注意,数据中的项集数不同于交易数。 每个交易可以包含多个项集;但是,大部分项集在数据集中都会重复多次。

规则概率和规则重要性

规则的概率说明规则的结果出现的可能性。 规则概率是使用支持某个规则的项集频率计算的。 如果某个项集很少出现,它的概率就会很低。

但是,具有高概率的规则并非始终都有用。 它们可能指示被频繁购买的项集,因而不需要额外的促销。 重要性用于度量规则的用途。 有时某个规则可能具有非常高的概率,但是重要性却非常低,这是因为预测没有提供新的信息。 例如,如果每个项集都包含属性的某个特定状态,那么,即使概率非常高,预测该状态的规则也并不重要。

您应尝试这些设置,以查看不同的结果,从而确定哪种设置会得出最值得关注的规则。

了解报表

购物篮分析工具创建两个补充报表。 第一个报表标题为 “分析期间识别的重要项目组”,提供找到的所有项集的列表。 可以使用 Microsoft Excel 中的新表工具来对数据进行排序、筛选和浏览。

第二个报表(标题为 “购物篮规则”)告诉你可以根据第一个报表中列出的项集进行哪种类型的推理。 项集列表对于浏览和理解数据来说更为有用,而规则列表对于预测和推荐来说更为有用。

购物篮项组报表

此报表包含在数据集中找到的所有可能的项组合的列表。 例如,如果交易数据包含订单,则对于每个订单, 购物篮分析工具 将计算单个商品的订购次数,然后计算该商品与其他项的所有组合。

该报表按项集提升的顺序列出找到的项集。 提升是一个分数,指出该项集的重要性。

报表中的列 它告诉你什么
项组 列出项集,即项的组合。
组大小 项集中的项数。 可以对此字段进行筛选,以便只查看项对、单个项等。
支持 在其中出现此组合的事例的计数。 可以对此列进行排序,以查看最常见的项集。
平均值 此项集中的项的总金额,再除以支持。 可以对此列进行排序和筛选,以定位不同价格范围的产品。
平均篮值 包含此项集的订单中的所有项的总金额,再除以支持。 此统计信息与该项集的平均值成对使用时很有用。
提升 一个表示此项集在整个数据集中值得关注程度的分数。 提升的计算方法为:获取两项同时出现的概率,然后除以这两项单独出现的概率。 结果是,如果两项之间有很强的关联性,提升的分数就会比较高。

购物篮规则报表

此报表包含一组通过分析找到的项集而建立的规则。 例如,如果交易数据揭示产品 A 和产品 B 经常被同时购买,则购物篮分析工具将创建一个规则,该规则预测 B 出现的时候一定会出现 A,A 出现的时候一定会出现 B。

每个规则都与一个概率相关联,此概率得自于支持数据。 这些概率在进行推荐时非常有用。 例如,您可能只想查看在现有数据基础上准确性几率至少达到 50% 的规则。

该报表按项集提升的顺序列出找到的项集。 提升是一个分数,指出该项集的重要性。

报表中的列 它告诉你的
现有项 列出进行推荐时所需的项。

在数据挖掘中,这些项据说位于关联规则的 左侧
预测项 列出要推荐的项。

在数据挖掘中,这些项据说位于关联规则的 右侧
概率 显示此规则为正确的概率。
支持 指示现有数据中的事例数,这些事例为此规则提供证据。
规则值 如果为购物篮中的项提供一个金额值,此列将根据这些项的花费计算该预测的价值。
提升 指示第一列中的项与第二列中的项之间的关联的强度。 也称为 重要性

提升为 0 表示没有关联。 正值意味着第一列中的项预测第二列中的项。 数字越大,关联越强。

Excel 数据挖掘客户端是一个独立的外接程序,它提供了更高级的数据挖掘功能,还包含一个用于执行关联分析的向导。 有关详细信息,请参阅 将向导 (Excel 数据挖掘客户端关联)

有关用于执行此分析的算法的详细信息,请参阅 SQL Server 联机丛书中的主题“Microsoft 关联算法”。

另请参阅

Excel 表分析工具