好象有日子没更新过blog了,写篇来证明博主的存在吧。
好多哥们建了网站,都不知道如何吸引别人的眼球。其实我觉得的,要么功能,要么内容。可是个人办的网站,就是二十四小时挂在网上不停的拷贝粘贴又能做得了多少内容? 懒人自有懒办法,写个程序去抓去?
嗯,想到就得动手,不然过阵就忘记了,当然喽,还是谋定而后动,打算怎么整呢?先选择好技术:
1、谁去抓?好象好多人都推荐使用nutch或是herixtrix,不过我觉得象一般的小网站玩玩,就不必这么费事了,就用HTMLParser吧,抓取与解析一体化解决吧。
2、谁来格式化数据?同上了,俺用正则习惯了,正好node + regex 够你用了。
3、如何存储抓来的数据? 我是用惯JavaEE了,那就 ibatis + mysql 吧,hiberate 就不必了,虽然我没打算做个多高负载的应用,但hibernate怎么也感觉不是很合适吧? (喜欢hiberate别拍砖,我不喜欢口水战,各人有自喜好,而且hibernate我也很喜欢)
4、如何把你抓来的数据表现出来呢? 这个就得看你自己的需要喽,CMS 还是 B2B电子商务程序? 还是一个 CRM或ERP程序(如果这样的话,倒不妨试试opentaps?)
5、性能是不是问题? 如果你打算做个专业的搜索引擎或是阿里巴巴之类的电子商务引擎,除去硬件的考虑、数据库的优化,也许你要更多地考虑cache的管理,还有可能考虑文件索引(如用lunece)
6、差点忘记了,谁来调度这些爬虫及程序之间的任务执行顺序呢? 试试Quartz?!
又犯困了,先写这吧,正好有个朋友要我帮忙指导做个类似玩意儿,下次再记录吧。