Posted on 2007-06-27 08:43
tanzek 阅读(307)
评论(0) 编辑 收藏
什么是规则?就是一个条件和一个结果的和:If condition then result。实际中有用的往往是结果中只有一个元素的情况。
关联规则(association rule)挖掘技术用于发现数据库中属性之间的有趣联系。和传统的产生式规则不同,关联规则可以有一个或多个输出,同时一个规则的输出属性可以是另一个规则的输入属性。关联规则分析有时也叫购物篮分析,是因为它可以找寻出潜在的令人感兴趣的所有的产品组合。由此,有限数目的属性可能生成上百条规则。
关联规则的置信度、支持度和兴趣度:
元组
|
出现频率
|
A
|
45%
|
B
|
42.5%
|
C
|
40%
|
A和B
|
25%
|
A和C
|
20%
|
B和C
|
15%
|
A和B和C
|
5%
|
支持度:就是一个元组在整个数据库中出现的概率。如上面的例子中
S(A)=0.45。
置信度:它是针对规则而言的。对于一般的规则,它的
可信度=p(condition and result)/p(condition)。例如有如下规则:
If B and C then A。则它的置信度是:
p(B and C and A)/p(B and C)=5%/15%=0.33。
提高率(或者叫兴趣度):对于上面的一个规则,我们可以发现,当我们从从数据库中直接取A的时候,概率是45%;可在我们的规则中,取到A的概率却只有33.3%。显然,这种情况是我们不愿意见到的,我们应该略去这样的一些规则。所以我们引入了兴趣度的概念,具体的公式如下:
兴趣度=p(condition and result)/p(condition)*p(result)。当兴趣度大于1的时候,这条规则就是比较好的;当兴趣度小于1的时候,这条规则就是没有很大意义的。兴趣度越大,规则的实际意义就越好。
克服实际应用中数据量暴大的问题。当数据量增大时,要考虑的元素组就增长的很快了。
关联规则的优缺点:
优点:·它可以产生清晰有用的结果。
·它支持间接数据挖掘。
·可以处理变长的数据。
·它的计算的消耗量是可以预见的。
缺点:
·当问题变大时,计算量增长得厉害。
·难以决定正确的数据。
·容易忽略稀有的数据。