Java心路

Java、Eclipse、Ajax......一个都不能少

 

提问:Heritrix抓取问题

Heritrix应用问题 请教一下大家如何用heritrix抓取以下网站内容,需要定制么?

下面是USPTO的专利网页:
http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits
其中NextList1表示第一个50条信息的页面,NextList2,NextList3,以此类推,在这些页面中点击每条超链接得到的是针对此条专利 信息的具体页面,那么现在我如何设置heritrix,可以抓取到每页50条,一共几万条的这些具体专利信息页面到本地呢?另外可否抓取的同时将html 格式转换伪txt格式到本地?谢谢高手指点!

欢迎交流:
qq:      173635235
msn:    bisal1130@yahoo.com.cn
email:  bill1130@gmail.com

posted on 2008-07-10 08:35 bisal 阅读(1054) 评论(1)  编辑  收藏

评论

# re: 提问:Heritrix抓取问题 2008-12-26 16:54 jackany

我也学这个呢,真是头大~  回复  更多评论   


只有注册用户登录后才能发表评论。


网站导航:
 

导航

统计

常用链接

留言簿(4)

随笔档案

文章档案

相册

Java战友兄弟

常用技术交流平台

搜索

最新评论

阅读排行榜

评论排行榜