论文：SIGIR2011-Short Text Classification in Twitter to Improve Information Filtering

大致内容：
这篇论文的任务是对twitter上的短文本进行分类，分到预先定义的5个类别中：news,event,opinions,deal,PM(private message)。该论文摒弃传统的BOW特征模型而别出心裁地选取了8个特征（8F）：
1个是名词性特性：用户。这个特征是8F特征中最为主要的特征，因为它反映了信息源的主要类别特征。如，企业的用户和个人用户通常有着不同的用户行为，这个特征可以限定该用户tweet的分类范围。
另外7个是binary feature（存在特征）:
俚语与词语缩写的使用：俚语和词语缩写通常不会是一个新闻
time-event短语：Event类别的重要特征
评论性词语：Opinion类重要特征
词语的强调（大写或字母重要，如veeery）：同上
currency和percentage标志：如￥$%，这些都是Deal类别的重要特征
@usrname：这是PM的重要特征，当然也有可能是Event类中的一个特征（participants）。
实验表明8F比BOW在精度上均为大幅提高。

使用工具：
weka

论文：
Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering. Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010

论文链接：
SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf

posted on 2012-02-18 12:32 Seraphi 阅读(1287) 评论(0) 编辑收藏

常用链接

留言簿

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理