随笔-28  评论-51  文章-10  trackbacks-0

一直搞不清搜索引擎的查全率和查准率是什么意思,只知道这两个是衡量一个搜索引擎性能的. 今个 看一篇 南大的学士论文的时候, 又碰到这个问题. 所以决定把他搞清楚, 上百度搜了一下, 所获很多.

查全率[召回率]与精度[查准率] 之辨析:

召回率(recall rate)和精度(precision)定义:

从一个大规模数据集合中检索文档的时,可把文档分成四组   

-系统检索到的相关文档(A)

- 系统检索到的不相关文档(B)

相关但是系统没有检索到的文档(C)

相关但是被系统检索到的文档(D)


相关

不相关

检索到

A

B

未检索到

C

D

直观的说,一个好的检索系统检索到的相关文档越多越好,不相关文档越少越好.

召回率和精度是衡量信息检索系统性能最重要的参数.

召回率R:用检索到相关文档数作为分子,所有相关文档总数作为分母,即 R=A/(A+C)

精度P 用检索到相关文档数作为分子,所有检索到的文档总数作为分母.即  P=A/(A+B).

下面举例说明召回率和精度之间的关系:

一个数据库有500个文档, 其中有50个文档符合定义的问题.系统检索到75个文档,但是只有45个符合定义的问题.

召回率      R=45/50=90%

精度      P=45/75=60%

本例中, 系统检索是比较有效的,召回率为90%. 但是结果有很大的噪音, 有近一半的检索结果是不相关. 研究表明: 在不牺牲精度的情况下,获得一个高召回率是很困难的.召回率越高,精度下降的很快,而且这种趋势不是线性的.




posted on 2008-05-07 14:35 fullfocus 阅读(2364) 评论(4)  编辑  收藏 所属分类: 聚类算法研究

评论:
# re: 召回率与精度 2008-05-07 15:19 | 优书斋
优书斋,计算机书籍品读,翻译和下载讨论群,qq群 23133419
目前正在翻译《java袖珍指南》,欢迎大家都加入,只要你有热情,我们随时欢迎。
翻译计划:
http://ushuzhai.cn/viewthread.php?tid=33
qq群 23133419  回复  更多评论
  
# re: 召回率与精度 2009-07-30 10:57 | uu
D部分的说明是错误的。很明显嘛。  回复  更多评论
  
# re: 召回率与精度 2009-07-30 10:59 | fullfocus
@uu
为什么啊?  回复  更多评论
  
# re: 召回率与精度 2011-04-20 12:44 | mojoliu
恩 我也觉得D是有问题的  回复  更多评论
  

只有注册用户登录后才能发表评论。


网站导航: