posts - 3, comments - 12, trackbacks - 0, articles - 0
  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理
一直对搜索引擎比较感兴趣,可是要找一份这样的工作感觉可遇不可求,于是自己开始研究Nutch,随便做了个小站,经过几个月的努力,蜗壳网:http://www.wokenet.com终于上线了,虽然功能还不大完善,但是内心仍然是非常的激动。蜗壳网专做数码产品的垂直搜索,力求打造成中国最大最全面的中文数码产品专业搜索引擎,从各大IT垂直资讯网站中搜集资料,为广大消费者提供最权威的资讯

导购部分:汇聚各大IT资讯网站的导购信息,为你提供最人性的导购信息,即时你不懂电脑,也可以从这些信息中筛选出满足自己需求的性价比最高的产品
测评部分:汇聚各大IT资讯网站的测评信息,希望能够帮助消费者对已经关注的IT产品有全面的了解
论坛部分:汇聚各大IT资讯网站的产品论坛信息,为你提供用户的评论,帮助你对产品的性能,售后服务,优缺点等有更加全面的了解。

    蜗壳网采用的是spring+struts+hibernate的主流java框架,搜索部分基于Nutch-0.7.2版本修改完成。目前功能较为简单,性能也不太理想,但是亲身经历开发过程,无疑对自身的技术水平有很大的提升。

    目前存在的问题:
1
、性能问题:由于采用的是比较老的Nutch版本,性能方面自然有一定影响,特别是摘要生成部分,希望对hapoop有一定研究之后可以转移到0.9版本。
2
、美工问题:由于没有专业的美工做界面,只能自己硬着头皮上,效果很不理想。。。哈哈,等俺有钱了也请个专业美工来做。
3
、代码问题:前期的开发主要最求功能,导致代码结构有些混乱,希望忙完功能之后对于代码结构进行调整。

希望大家看过之后能给点意见!呵呵.感激不尽.


评论

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)[未登录]  回复  更多评论   

2008-10-12 19:00 by ytl
界面比较清爽,给人的感觉还不错。。

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)[未登录]  回复  更多评论   

2008-10-14 09:38 by chair
不错

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)[未登录]  回复  更多评论   

2008-10-28 11:27 by wahaha
很不错
我也想学!

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)  回复  更多评论   

2008-11-24 10:33 by paopao
可以多请教一些具体的开发技术问题吗,偶是新菜鸟,也很喜欢自动抓取信息,首选当然是yahoo的hadoop.

buqiong1001@gmail.com

望有空的话能多聊聊开发的技术过程,对新人会有帮助,提前致谢了

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)  回复  更多评论   

2008-12-03 10:11 by febbe
可以请教一下吗,我是菜鸟
smart_zh_hui@yahoo.com.cn

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)  回复  更多评论   

2009-04-03 21:55 by asdds
能不能多弄点共享!

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)  回复  更多评论   

2009-05-04 16:52 by 小陈
你好,可以教我一下吗?我最近也想弄一下这东西,能给我一点相关的资料吗,我是菜鸟
zty19845@126.com,谢谢!

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)  回复  更多评论   

2009-08-03 12:36 by z87984
你好,对在网络抓取信息很感兴趣,希望能够一起学习。
z87984@gmail.com,谢谢!

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)  回复  更多评论   

2009-12-29 17:34 by 茶中生
请问你在用nutch 抓取的时候是用 unix 命令行传递命令的吗? 不知道你有没有实现直接使用 动态类进行直接执行进行抓取

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)[未登录]  回复  更多评论   

2010-01-22 16:22 by 小李
你好,对在网络抓取信息很感兴趣,希望能够一起学习。
ibc789@163.com,谢谢!

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)[未登录]  回复  更多评论   

2010-01-26 13:51 by Jack
能告诉我一下怎么用nutch做查询结果分组吗?
email:ximinjie@gmail.com

# re: 首次修改nutch开发的一个小站(蜗壳网:http://www.wokenet.com/)  回复  更多评论   

2013-08-20 12:05 by kelvin—L
你好!请教一些问题:
请问一下
1。你是如何把nutch抓取到的二进制内容,在项目中读取的。
2。nutch抓取时候,发现有很多url没有被成功抓取过来,请问你做的时候,有什么 办法是提高成功率。
3。对抓取过来内容你们是如何进行关键词搜索

希望群主可以帮忙解答一下。万分感激!
email:83132614@qq.com

只有注册用户登录后才能发表评论。


网站导航:
博客园   IT新闻   Chat2DB   C++博客   博问