文本分类入门(六)训练Part 3

SVM算法
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力[14]（或称泛化能力）。
SVM 方法有很坚实的理论基础，SVM 训练的本质是解决一个二次规划问题（Quadruple Programming，指目标函数为二次函数，约束条件为线性约束的最优化问题），得到的是全局最优解，这使它有着其他统计学习技术难以比拟的优越性。SVM 分类器的文本分类效果很好，是最好的分类器之一。同时使用核函数将原始的样本空间向高维空间进行变换，能够解决原始样本线性不可分的问题。其缺点是核函数的选择缺乏指导，难以针对具体问题选择最佳的核函数；另外SVM 训练速度极大地受到训练集规模的影响，计算开销比较大，针对SVM 的训练速度问题，研究者提出了很多改进方法，包括Chunking 方法、Osuna 算法、SMO 算法和交互SVM 等等[14]。
SVM分类器的优点在于通用性较好，且分类精度高、分类速度快、分类速度与训练样本个数无关，在查准和查全率方面都优于kNN及朴素贝叶斯方法[8]。
与其它算法相比，SVM算法的理论基础较为复杂，但应用前景很广，我打算专门写一个系列的文章，详细的讨论SVM算法，stay tuned！

介绍过了几个很具代表性的算法之后，不妨用国内外的几组实验数据来比较一下他们的优劣。
在中文语料上的试验，文献[6]使用了复旦大学自然语言处理实验室提供的基准语料对当前的基于词向量空间文本模型的几种分类算法进行了测试，这一基准语料分为20个类别，共有9804篇训练文档，以及9833篇测试文档。在经过统一的分词处理、噪声词消除等预处理之后，各个分类方法的性能指标如下。

其中F1 测度是一种综合了查准率与召回率的指标，只有当两个值均比较大的时候，对应的F1测度才比较大，因此是比单一的查准或召回率更加具有代表性的指标。
由比较结果不难看出，SVM和kNN明显优于朴素贝叶斯方法（但他们也都优于Rocchio方法，这种方法已经很少再参加评测了）。
在英文语料上，路透社的Reuters-21578 “ModApt´e”是比较常用的测试集，在这个测试集上的测试由很多人做过，Sebastiani在文献[23]中做了总结，相关算法的结果摘录如下：

分类算法

在Reuters-21578 “ModApt´e”上的F1测度

Rocchio

0.776

朴素贝叶斯

0.795

kNN

0.823

SVM

0.864

仅以F1测度来看，kNN是相当接近SVM算法的，但F1只反映了分类效果（即分类分得准不准），而没有考虑性能（即分类分得快不快）。综合而论，SVM是效果和性能均不错的算法。

前面也提到过，训练阶段的最终产物就是分类器，分类阶段仅仅是使用这些分类器对新来的文档分类而已，没有过多可说的东西。
下一章节是对到目前为止出现过的概念的列表及简单的解释，也会引入一些后面会用到的概念。再之后会谈及分类问题本身的分类（绕口），中英文分类问题的相似与不同之处以及几种特征提取算法的概述和比较，路漫漫……

发表于 2008-06-03 23:20 Jasper 阅读(5944) 评论(7) 编辑收藏所属分类: 文本分类技术

# re: 文本分类入门(六)训练Part 3

期待你的文章，写得真好，又把问题讲清楚了又很通俗易懂。
期待你的更新

wlj 评论于 2008-06-04 21:02 回复更多评论

# re: 文本分类入门(六)训练Part 3

你的文章通俗易懂，期待关于svm的文章。

lyh 评论于 2008-06-20 16:42 回复更多评论

# re: 文本分类入门(六)训练Part 3

请问你是用什么语言实现对复旦大学自然语言处理实验室提供的基准语料进行预处理？能把程序给我一份吗？谢谢！我的邮箱：llyh0241@163.com

lyh 评论于 2008-06-20 18:45 回复更多评论

# re: 文本分类入门(六)训练Part 3[未登录]

请问你用的复旦大学自然语言处理实验室提供的基准语料可以在那里找到啊，我在baidu上找不到啊。

田力评论于 2008-06-21 10:07 回复更多评论

# re: 文本分类入门(六)训练Part 3

文章确实写的不错，终于仔细的看完了，不过SVM部分似乎太粗糙了点，期待你的佳作哦！

波斯猫评论于 2008-07-09 20:54 回复更多评论

# re: 文本分类入门(六)训练Part 3

刚接触分类，学到很多哦~谢谢@_@

juju 评论于 2008-08-04 17:02 回复更多评论

# re: 文本分类入门(六)训练Part 3

入门中...谢谢。

流浪的小剑评论于 2008-11-10 08:56 回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: 文本分类入门（番外篇）特征选择与特征权重计算的区别 SVM入门（十）将SVM用于多类分类文本分类入门（十一）特征选择方法之信息增益 SVM入门（九）松弛变量（续） SVM入门（八）松弛变量 SVM入门（七）为何需要核函数 SVM入门（六）线性分类器的求解——问题的转化，直观角度 SVM入门（五）线性分类器的求解——问题的描述Part2 SVM入门（四）线性分类器的求解——问题的描述Part1 SVM入门（一）至（三）Refresh

文章分类

搜索

文本分类入门(六)训练Part 3

公告

常用链接

留言簿(64)

随笔分类

随笔档案

文章分类

搜索

最新评论

阅读排行榜

评论排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理	随笔：51 文章：2 评论：717 引用：0