有些人说不知道snoics-reptile中的snoics-systemconfig.xml不知道怎么配置,这里就给出一个CSDN中Java文档中心的抓取配置的抓取配置。
在抓取完了之后往Apache的httpd.conf中加入
Listen 10001
<VirtualHost *:10001>
DocumentRoot D:\\temp\\reptile\\website
</VirtualHost>
这段配置。
最后删除抓取下来的文件夹中的D:\temp\reptile\website\author\index.html这个文件。不知道为什么文档中心的这个URL是一个空的页面http://dev.csdn.net/author ,把这个URL的相对应的抓取下的文件删除就可以正常使用了
在抓取的过程中,有些图片文件可能会出现错误,不过不影响使用,因为这些图片的路径本身大概就有些问题。
附件-配置文件:http://www.blogjava.net/Files/snoics/snoics-systemconfig.rar
posted on 2006-08-19 14:30
snoics 阅读(1553)
评论(0) 编辑 收藏