购物篮分析(Excel 表分析工具)
购物篮分析工具可帮助你查找associations
数据。 关联可以指出哪些项经常被同时购买。 在数据挖掘中,此方法是一种众所周知的方法,称为 市场篮分析,用于分析客户在非常大的数据集中的购买行为。 商家可以使用该信息向客户推荐相关产品,并通过将这些产品置于网页、目录或货架中的临近位置来进行促销。
若要使用购物篮分析,要分析的项必须通过交易 ID 进行关联。 例如,如果要分析通过某个网站接收的所有订单,则每个订单都会有一个订单 ID 或交易 ID,它与一个或多个购买项相关联。
向导完成数据分析后,会创建两个新工作表: 购物篮项组 和 购物篮规则。
“购物篮项组”工作表包含经常出现在交易中的项列表。 这些常见分组称为 项集。 工作表还包含支持和提升等统计信息,以帮助您了解项集的重要性。 如果提供了价格信息,该工作表还将创建所有相关项的金额之和,以指示这些交易的总金额。
可以在报表中对各列进行筛选和排序。 例如,你可能只想查看包含 2 个或更多产品的项集,或者按 平均购物篮值对商品集进行排序。
“ 购物篮规则” 工作表使用派生自分析的统计信息来创建有关项目关联方式的规则。 例如,规则可能是,如果客户购买产品 A,他们很可能购买产品 B。这些规则可用于创建建议。 每个规则都有支持的统计信息,可帮助您评估该规则的潜在强度,以便仅在该规则超出了某个概率阈值时才进行推荐。
使用购物篮分析工具
打开一个包含适当数据的 Excel 表。 在示例工作簿中,单击“关联”工作表。
单击“ 购物篮分析”。
在“ 购物篮分析 ”对话框中,选择包含事务 ID 的列,然后选择包含要分析的项或产品的列。
可以选择添加包含产品金额的列。
单击“高级”打开“ 高级参数设置 ”对话框。 增加 “最低支持” 的值以减少分组为项集的产品数。 增加 最小规则概率 以筛选出非常常见的项集。
要求
若要使用 购物篮分析工具 ,必须将数据存储在 Excel 表中,并且必须包含以下列:
包含表示该交易的唯一 ID 的列。 该 ID 可以是数值或文本,只要每行中的值是唯一的。
包含要分析的项或产品的列。
表示每一项的价格或金额的可选数值列。 此列用于聚合每个产品所在项集的金额,这有助于了解某些交易的总金额。
如何关联项
要分析的各项必须按某种表示事例、交易或时机的标识符进行分组。 因此,可以选择此交易 ID 列作为标识符,而不是客户 ID 号或产品 ID 号。
该工具检查每个交易中的产品时,会为所找到的每个项组合创建一个项集。 例如,如果一位客户一次购买了 3 件产品,那么就有 7 个可能的项集:每个产品自身、每个产品与另一件产品的组合以及全部三种产品的组合。
注意
可以筛选出包含单个项的项集,但是该工具需要对这些项集进行分析,才能为数据集生成有意义的统计信息。
每个项集的支持是按购买该项集的客户数来计算的。 在上面提到的示例中,如果只有一位客户购买了 3 件商品,即有 7 个可能的项集,则全部 7 个项集的支持值都为 1。 随着客户数的增加,以及可能的组合数的增长,将需要更长的时间来处理报表。 但是,某些项集的支持值可能非常小。 因此,您可能需要限制每个项集中的项数不超过 3 个,从而减少生成该报表所需的时间。 通常,较大的项集具有较低的支持,所以此折中方案是可接受的。
指定最低支持和规则概率
随着数据集的增长,可能的项分组数和规则数将会过于庞大。 但是,您可以控制由该工具输出的结果数,从而只将重点放在最有价值的项集和规则上。 可以在 “购物篮高级参数”对话框中设置这些选项。
最低支持
最低支持 意味着必须包含特定项集才能使项集被视为重要的事务数。 例如,除非某个项集在至少 10 个不同的交易中被购买过,否则您不会对它感兴趣。 有两种方法可以控制项集重要性的阈值,这两种方法都使用 Minimum 支持 参数。
作为绝对值: 输入一个数字,表示包含目标项的事务计数。 例如,如果输入 10,则至少出现在 10 个购物篮中的任何项集都包括在结果中。
以百分比表示: 输入表示整个项集集合的百分比的数字。 例如,如果指定 10,将对所有项集计数,目标项集必须在项集总数中至少占 10%。 如果数据集非常大,则使用百分比(而不是计数)有助于将重点放在最重要的项分组上。
注意
请注意,数据中的项集数不同于交易数。 每个交易可以包含多个项集;但是,大部分项集在数据集中都会重复多次。
规则概率和规则重要性
规则的概率说明规则的结果出现的可能性。 规则概率是使用支持某个规则的项集频率计算的。 如果某个项集很少出现,它的概率就会很低。
但是,具有高概率的规则并非始终都有用。 它们可能指示被频繁购买的项集,因而不需要额外的促销。 重要性用于度量规则的用途。 有时某个规则可能具有非常高的概率,但是重要性却非常低,这是因为预测没有提供新的信息。 例如,如果每个项集都包含属性的某个特定状态,那么,即使概率非常高,预测该状态的规则也并不重要。
您应尝试这些设置,以查看不同的结果,从而确定哪种设置会得出最值得关注的规则。
了解报表
购物篮分析工具创建两个补充报表。 第一个报表标题为 “分析期间识别的重要项目组”,提供找到的所有项集的列表。 可以使用 Microsoft Excel 中的新表工具来对数据进行排序、筛选和浏览。
第二个报表(标题为 “购物篮规则”)告诉你可以根据第一个报表中列出的项集进行哪种类型的推理。 项集列表对于浏览和理解数据来说更为有用,而规则列表对于预测和推荐来说更为有用。
购物篮项组报表
此报表包含在数据集中找到的所有可能的项组合的列表。 例如,如果交易数据包含订单,则对于每个订单, 购物篮分析工具 将计算单个商品的订购次数,然后计算该商品与其他项的所有组合。
该报表按项集提升的顺序列出找到的项集。 提升是一个分数,指出该项集的重要性。
报表中的列 | 它告诉你什么 |
---|---|
项组 | 列出项集,即项的组合。 |
组大小 | 项集中的项数。 可以对此字段进行筛选,以便只查看项对、单个项等。 |
支持 | 在其中出现此组合的事例的计数。 可以对此列进行排序,以查看最常见的项集。 |
平均值 | 此项集中的项的总金额,再除以支持。 可以对此列进行排序和筛选,以定位不同价格范围的产品。 |
平均篮值 | 包含此项集的订单中的所有项的总金额,再除以支持。 此统计信息与该项集的平均值成对使用时很有用。 |
提升 | 一个表示此项集在整个数据集中值得关注程度的分数。 提升的计算方法为:获取两项同时出现的概率,然后除以这两项单独出现的概率。 结果是,如果两项之间有很强的关联性,提升的分数就会比较高。 |
购物篮规则报表
此报表包含一组通过分析找到的项集而建立的规则。 例如,如果交易数据揭示产品 A 和产品 B 经常被同时购买,则购物篮分析工具将创建一个规则,该规则预测 B 出现的时候一定会出现 A,A 出现的时候一定会出现 B。
每个规则都与一个概率相关联,此概率得自于支持数据。 这些概率在进行推荐时非常有用。 例如,您可能只想查看在现有数据基础上准确性几率至少达到 50% 的规则。
该报表按项集提升的顺序列出找到的项集。 提升是一个分数,指出该项集的重要性。
报表中的列 | 它告诉你的 |
---|---|
现有项 | 列出进行推荐时所需的项。 在数据挖掘中,这些项据说位于关联规则的 左侧 。 |
预测项 | 列出要推荐的项。 在数据挖掘中,这些项据说位于关联规则的 右侧 。 |
概率 | 显示此规则为正确的概率。 |
支持 | 指示现有数据中的事例数,这些事例为此规则提供证据。 |
规则值 | 如果为购物篮中的项提供一个金额值,此列将根据这些项的花费计算该预测的价值。 |
提升 | 指示第一列中的项与第二列中的项之间的关联的强度。 也称为 重要性。 提升为 0 表示没有关联。 正值意味着第一列中的项预测第二列中的项。 数字越大,关联越强。 |
相关工具
Excel 数据挖掘客户端是一个独立的外接程序,它提供了更高级的数据挖掘功能,还包含一个用于执行关联分析的向导。 有关详细信息,请参阅 将向导 (Excel 数据挖掘客户端关联) 。
有关用于执行此分析的算法的详细信息,请参阅 SQL Server 联机丛书中的主题“Microsoft 关联算法”。