大致内容:
本文在political affilication(民主党,共和党), ethnicity identification(African Americans)和affinity for a particular business(星巴克)三个任务上,对user进行二元分类
相关参考资源:
Bing Social
Klout
Twitter's "Who to Follow"
Google's "Follow Finder"
用户的profile可被用来自动匹配相似用户,也可以通过profile显式表达去推荐
GBDT(Gradient Boosted Decision Tree)
avatar 头像
本文思想及实现:
对用户分类,用到两类信息:
(1)user-centric information(言语表达,tweet内容,行为,喜好)
(2)social graph information
整个系统架构由两部分组成:(1)ML(machine learning) component,用来通过user-centric information对用户分类;(2)a graph-based updating component,包含了social graph信息,通过该用户的社会网络分布对分类信息做出更新
ML部分:使用GBDT Framework作为分类算法,GBDT可解决过拟合问题,且有smaller resulting models and faster decoing time的特点[7]。
(1)profile:选取基本profile信息:a.用户名长度;b.用户名中字母数字个数;c.用户名中不同的大小写形式;d.头像使用;e.粉丝数;f.关注者;g.粉丝/关注比例;h.创建帐户日期;i.bio;j.location。其中bio使用正则表达式进行匹配抽取信息
(2)Tweeting bahavior:判断information source/seeker:a.tweet数;b.retweet数/比例;c.reply数/比例;d.平均hashtag数;e.URLs per tweets;f.fraction of tweets touneated;g.tweets时间间隔,标准差;h.一天的平均tweet数和标准差
(3)Linguistic Content Feature:使用LDA,从BOW中抽取
a.proto-word(typical lexical expression in a specific class):本文通过概率模型抽取pro-word
b.proto-hashtag:与proto-word类似
c.Generic LDA:假设a user can be represented as a multinomial distribution over topics
d.Domain-specific LDA:GLDA得到粗粒度topic,DLDA细粒度
e.sentiment words:对于某term建立窗口,对其周围n个词语进行考查,判断用户倾向。
(4)社会网络特征:
a.Friend Accounts
b.Users whom to the target user replyed and retweeted
基于图的标签更新:
这个步骤基于社会关系网络用来对机器学习所给出错误标注做以纠正。在这个实验中,作者仅仅选取了friend accouts一项,因为它最能表示target user的兴趣和倾向。实验在target user的所有friends都运行了ML算法,将其所有朋友帐号都赋予了一个标签,然后用朋友帐号的标签来对target user的标签做出评判及更正。
final_score(ui)=α*ML+(1-α)*label updating
实验分析:
作者分别将α设为0,1和0.5进行实验。最后实验表明,ML本身就可以取得较高的结果,而标签更新算法本身则效果不佳。对于political affinity,标签更新作用较大,对整体结果有着较好(比起其它两个task)但仍然是很微小的提升。Starbuck标签更新算法也有用,则非常小。而对于Ethnicity来说,标签更新算法还不如没有,反而起到了负作用。作者分析原因,在于social connection对于政治有着较大的帮助,而对于种族和商品这种个性化的东西,作用不是很大。
在实验中,作者使用了两个base line:
B2:在ML阶段只使用了profile和tweeting bahavior两项特征(这两项特征容易取得)
B1在不同实验中,有着不同含义:
a.政治倾向上:B1把在bio field中提到的对民主/共和党的倾向作为分类依据,进行分类
b.种族上:B1根据用户的头像来对其进行种族分类。
c.星巴克:B1把所有在bio field提到星巴克的用户分类为星巴克粉丝。
结果表明:B2总体性能不如本文所提到的系统,说明lingistic特征和社会网络特征对于结果有着巨大的积极影响。而B1有着极高的准确率,但召回率太低,也没有太大的实用价值。
工具:
Opinion Finder[25]
论文:
Marco Pennacchiotti, Ana-Maria Popescu:Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter.
Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, Aug. 2011
论文链接:
KDD2011_Democrats_republicans_and_starbucks_afficionados_user_classification_in_twitter.pdf
posted on 2012-02-18 13:23
Seraphi 阅读(668)
评论(0) 编辑 收藏