我要去桂林---田春峰的网志

我要去桂林

随笔 - 10, 文章 - 0, 评论 - 2, 引用 - 0

数据加载中……

一种面向搜索引擎的网页分块、切片的原理，实现和演示

最近看到 2005 年的全国搜索引擎和网上信息挖掘学术研讨会上华南木棉信息检索的队长欧健文的华南木棉信息检索的ppt。很有启发。

于是自己也根据自己的理解准备做一个实现。
实现前提假设：
   1、网页分块切分的基本单位是html中的table , div 等标签（目前版本只支持：table ,div 标签）。
   2、网页分块切片识别依赖于相似url的对比。比如：我们认为一下两个url的网页html文本结构相似：
       http://news.soufun.com/2005-11-26/580107.htm
       http://news.soufun.com/2005-11-26/580175.htm
       而下面两个url的网页结构不相似：
       http://news.soufun.com/subject/weekly051121/index.html
       http://news.soufun.com/2005-11-26/580175.htm

用途：
   1、根据分析网页结构区分网页是主题型网页还是目录型网页；
   2、根据分析网页结构找出网页的主题内容，相关内容和噪音内容；

实现的3个阶段：
   1、对网页结构进行合理切片；
   2、比较相似网页的切片结构；
   3、分析切片数据，得出结论。
演示地址：
       http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp

posted on 2005-11-28 10:17 我要去桂林阅读(649) 评论(0) 编辑收藏

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

我要去桂林---田春峰的网志

一种面向搜索引擎的网页分块、切片的原理，实现和演示

导航

常用链接

留言簿(1)

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜