01174587.pdf
在CF中考虑用户的倾向时考虑了整体社会的规范,因为用户通常都是从众的
本文研究的是:可能不能很好的满足用户的需要,但用户有时候需要的是最新的新闻和信息等,提出了一个想法与其他的个性技术进行比较。
Information Overload:多个含义These general informational characteristics include concepts such as complex, random, intense, jarring, heterogeneous, dissonant, intermittent, rare, novel, surprising, meaningless, asymmetrical, close, crowded, or dense
01204292.pdf
基于多agent的系统
用户的分组由用户自己解决,所以可以不用考虑用户的group问题
用户对文档的注释表示用户对类似的文档感兴趣,所以用户本身就是一个评价算法。这里的注释表示对文档的Vote,喜欢或是不喜欢
对于一篇文档,先给group中的一部分人看,如果被接受那么就发送给group中的其他人,并继续接受反馈
User agent的设置包括:有多少人对文档进行评价,要从怎样的置信度上接受他们的评价;初始的判定准则的指定,即如何判断一篇文档是否符合社区和用户(一般可以使用KNN判断与社区、用户的profile的兴趣度高不高);判断用户评价的准则的指定,需要判断是否继续分发文档(默认就是用户的评价是正的还是负的);如果用户忽略文档如何处理的准则(默认是用户不感兴趣)
THINK:用户的隐私,可能有的文档不希望给别人看
一些问题:有的用户不确定是否要共享自己的文档,但希望和别人一起对文档进行评价;有些只希望接收文档而不愿意进行评价;还有的人只会给别人发一些别人不愿意看的东西,比如广告等。
解决的方法是对社区和用户进行分类:
用户分类:annoying user:建议、文档经常不被人接受;passive user:不评价文档,但对提供的文档还是看的;active user:参加评价的工作流,积极的浏览者,对一篇文档给出建议,对社区的积极建议者
社区分类:社区里面都是active suggestor和active reviewer,这样文档就能被充分的浏览并给予评价;社区里面有上面两者还有passive user,如果passive user的百分比超过active reviewer,那么很多文档将不被评价,无法正确作出预测,所以需要overload active reviewer。
社区中:如果一个用户得到系统负的评价,那么很有可能被踢出社区(包括很长一段时间不review文档,即不给出评价,那么被认为是一个passive user,给出一个负的评价;还包括对社区大部分接受的文档持否定的评价;对社区排除的文档持肯定的评价)
社区对用户的踢出应该是透明的
对于一个新用户,社区使用数据挖掘工具判断他的profile与社区里面的大部分成员是否相似,以决定是否可以将其进行吸收。
reviewer的选择:1、用系统管理员;2、社区内了解主题内容的人;3、大家进行投票表决
01222119.pdf
在手机铃声的推荐系统里面采用基于记忆的CF
太过简单,几乎没有考虑数据膨胀、数据稀疏等问题
01236281.pdf
试图要解决数据稀疏和数据膨胀问题,再看看
使用对Items使用K-means进行分类,并用二分树进行表示,之后的预测就在一个相对小型的数据库里面搜索和预测,可以比一般的CF提高精确度(我觉得应该和SVD等方法进行一些比较)
为了解决数据膨胀问题,有两类方法:下降维度(dimension reduction)、半自动过滤agent(semi-intelligent filtering agent)
本文的数据觉得有问题,不可能比简单的基于Item的算法错误率更低,因为本文的方法进行了预先Items的分类,之后的预测的范围就小了很多,由部分Item可能会漏过。
0222_Huang2.pdf
似乎是不错的文章,比较了多个常用的CF算法
举出了常见的CF的站点
列出了五个提供CF技术的公司:Net Perceptions, Epiphany, Art Technology Group, BroadVision, and Blue Martini Software.
CF在电子商务方面主要需要的是下列三种类型的数据:产品的信息、用户的信息、用户和产品之间的信息(rate,buy,浏览等)
主要是需要高质量的用户与产品的关系的信息,但是很难得到
最简单的推荐就是推荐最流行的产品
CF中的一些问题:用户和产品的关系通常有很多,但是最后的推荐值可能只有两值:推荐或不推荐,这个问题可以通过整合这些统计量来解决;在现有的多种算法如果要进行合并,一个完整的比较是十分必要的,而以为的论文都只和有限的几种方法进行比较;最后一个问题就是历时已久的数据稀疏问题,这在很大程度上导致用户之间相似度判断的不可信,和最后推荐结果的不可信。
本文有两个事:评价各个算法,以及各个算法在数据稀疏上效能
给出了六个常用的算法,以及本文自己提供的算法
User-Based、Item-Based、Dimensionality Reduction(使用SVD分解)、Generative Model(对用户判断其分类,然后集中在分类中计算对产品的购买率)、Spreading Activation、Link Analysis(本文的算法)
给出了一些比较常用的评测公式!
直接把Rating的分值当作购买,记为1,如果分值为0或负数,表示没有购买
取与产品有交互数为5~100之间的用户作为测试集
THINK:考虑随时间推移的兴趣度的度量,初步想法(兴趣度或者rating应该随着时间和看的书而慢慢的下降)
这里面的评测分都很低,低于1%
有大量的评测值!