opentaps)

:: 管理

54 Posts :: 0 Stories :: 112 Comments :: 0 Trackbacks

好象有日子没更新过blog了，写篇来证明博主的存在吧。

好多哥们建了网站，都不知道如何吸引别人的眼球。其实我觉得的，要么功能，要么内容。可是个人办的网站，就是二十四小时挂在网上不停的拷贝粘贴又能做得了多少内容？懒人自有懒办法，写个程序去抓去？

嗯，想到就得动手，不然过阵就忘记了，当然喽，还是谋定而后动，打算怎么整呢？先选择好技术：

1、谁去抓？好象好多人都推荐使用nutch或是herixtrix，不过我觉得象一般的小网站玩玩，就不必这么费事了，就用HTMLParser吧，抓取与解析一体化解决吧。

2、谁来格式化数据？同上了，俺用正则习惯了，正好node + regex 够你用了。

3、如何存储抓来的数据？我是用惯JavaEE了，那就 ibatis + mysql 吧，hiberate 就不必了，虽然我没打算做个多高负载的应用，但hibernate怎么也感觉不是很合适吧？（喜欢hiberate别拍砖，我不喜欢口水战，各人有自喜好，而且hibernate我也很喜欢）

4、如何把你抓来的数据表现出来呢？这个就得看你自己的需要喽，CMS 还是 B2B电子商务程序？还是一个 CRM或ERP程序(如果这样的话，倒不妨试试opentaps？）

5、性能是不是问题？如果你打算做个专业的搜索引擎或是阿里巴巴之类的电子商务引擎，除去硬件的考虑、数据库的优化，也许你要更多地考虑cache的管理，还有可能考虑文件索引（如用lunece）

6、差点忘记了，谁来调度这些爬虫及程序之间的任务执行顺序呢？试试Quartz？！

又犯困了，先写这吧，正好有个朋友要我帮忙指导做个类似玩意儿，下次再记录吧。

posted on 2009-08-04 21:33 shanghai_spark 阅读(1473) 评论(5) 编辑收藏

Feedback

# re: 建了网站没内容咋办？整队网络爬虫出去抓去呀(一) 2009-08-05 00:04 小人物

对这个很感兴趣，希望博主能够写这一系列的教程。呵呵。回复更多评论

# re: 建了网站没内容咋办？整队网络爬虫出去抓去呀(一) 2009-08-05 09:00 popoer

互联网上的垃圾信息就是这样产生的... 回复更多评论

# re: 建了网站没内容咋办？整队网络爬虫出去抓去呀(一) 2009-08-05 09:10 隔叶黄莺

自己用 HTMLParser，然后 node+regex 去解析会很麻烦的。回复更多评论

# re: 建了网站没内容咋办？整队网络爬虫出去抓去呀(一) 2009-08-05 16:56 r

抓出来缺胳膊少腿的内容,垃圾网都这样回复更多评论

# re: 建了网站没内容咋办？整队网络爬虫出去抓去呀(一) 2009-08-07 03:58 Bond

对这方面很感兴趣，希望能向博主请教，QQ：329069383 回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

spark的自留地(ofbiz/eclipse rcp/shark/opentaps)

公告

留言簿(24)

我参与的团队

随笔分类

随笔档案

朋友

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

Feedback