数据挖掘算法Apriori怎么用

来源：恒创科技编辑：恒创科技编辑部

2024-02-01 17:27:59

小编今天带大家了解数据挖掘算法Apriori怎么用，文中知识点介绍的非常详细。觉得有帮助的朋友可以跟着小编一起浏览文章的内容，希望能够帮助更多想解决这个问题的朋友找到问题的答案，下面跟着小编一起深入学习“数据挖掘算法Apriori怎么用”的知识吧。

一、算法概述

Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的算法，它是由Rakesh Agrawal 和RamakrishnanSkrikant 提出的。它使用一种称作逐层搜索的迭代方法，k- 项集用于探索（k+1）- 项集。首先，找出频繁 1- 项集的集合。该集合记作L1。L1 用于找频繁2- 项集的集合 L2，而L2 用于找L2，如此下去，直到不能找到 k- 项集。每找一个 Lk 需要一次数据库扫描。为提高频繁项集逐层产生的效率，一种称作Apriori 性质的重要性质用于压缩搜索空间。其运行定理在于一是频繁项集的所有非空子集都必须也是频繁的，二是非频繁项集的所有父集都是非频繁的。

二、应用场景

Apriori算法应用广泛，可用于消费市场价格分析，猜测顾客的消费习惯；网络安全领域中的入侵检测技术；可用在用于高校管理中，根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作；也可用在移动通信领域中，指导运营商的业务运营和辅助业务提供商的决策制定。
三、基本概念
Apriori算法最重要的两个概念为支持度(support)和置信度(confidence):

支持度：support({A,B})=P(AB)，即事件A、B同时发生的概率

置信度：confidence(A=>B)=support({A,B})/support({A}),即在A发生的事件中同时发生B的概率，计算中A到B的置信度即为{A,B}的支持度/{A}的支持度。

最小置信度：预定值，一般由多次尝试算法结果得出，用来排除每次候选集中的元素，已得到下一层的频繁项集。

最小置信度，预设值，用来判断置信度

强规则：同时满足最小支持度和最小置信度的规则称为强规则