学海拾遗

生活、技术、思想无处不在学习
posts - 52, comments - 23, trackbacks - 0, articles - 3
  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

数据挖掘相关

Posted on 2007-06-27 08:43 tanzek 阅读(310) 评论(0)  编辑  收藏

什么是规则?就是一个条件和一个结果的和:If condition then result。实际中有用的往往是结果中只有一个元素的情况。

关联规则(association rule)挖掘技术用于发现数据库中属性之间的有趣联系。和传统的产生式规则不同,关联规则可以有一个或多个输出,同时一个规则的输出属性可以是另一个规则的输入属性。关联规则分析有时也叫购物篮分析,是因为它可以找寻出潜在的令人感兴趣的所有的产品组合。由此,有限数目的属性可能生成上百条规则。

关联规则的置信度支持度兴趣度

元组

出现频率

A

45%

B

42.5%

C

40%

A和B

25%

A和C

20%

B和C

15%

A和B和C

5%


支持度:就是一个元组在整个数据库中出现的概率。如上面的例子中S(A)=0.45

置信度:它是针对规则而言的。对于一般的规则,它的可信度=p(condition and result)/p(condition)。例如有如下规则:If B and C then A。则它的置信度是:p(B and C and A)/p(B and C)=5%/15%=0.33

提高率(或者叫兴趣度):对于上面的一个规则,我们可以发现,当我们从从数据库中直接取A的时候,概率是45%;可在我们的规则中,取到A的概率却只有33.3%。显然,这种情况是我们不愿意见到的,我们应该略去这样的一些规则。所以我们引入了兴趣度的概念,具体的公式如下:兴趣度=p(condition and result)/p(condition)*p(result)。当兴趣度大于1的时候,这条规则就是比较好的;当兴趣度小于1的时候,这条规则就是没有很大意义的。兴趣度越大,规则的实际意义就越好。

克服实际应用中数据量暴大的问题。当数据量增大时,要考虑的元素组就增长的很快了。

关联规则的优缺点:
优点:
·它可以产生清晰有用的结果。
·它支持间接数据挖掘。
·可以处理变长的数据。
·它的计算的消耗量是可以预见的。

缺点:
·当问题变大时,计算量增长得厉害。
·难以决定正确的数据。
·容易忽略稀有的数据。


只有注册用户登录后才能发表评论。


网站导航: