小明思考
Just a software engineer
posts - 124, comments - 36, trackbacks - 0, articles - 0
BlogJava
::
首页
::
新随笔
::
联系
::
聚合
::
管理
开源网络爬虫Snaker
Posted on 2012-01-13 15:45
小明
阅读(3224)
评论(1)
编辑
收藏
所属分类:
开源项目
最近开发的一个通用网络爬虫平台,主要是想满足自己想从特定网站抓取大量内容的需求,有如下特点:
1. 支持cookie/session,所以支持登录论坛和网站
2. 支持图像识别,可以由人工识别或者机器识别
3. 多线程下载,性能不错
4. 支持代理
5. 支持HTTPS和证书验证
6. 支持可插拔脚本,对特别网站使用特别的脚本(javascript编写)。
7. 有Web界面,操作方便
项目位置:
http://code.google.com/p/ssnaker/
下载:
http://ssnaker.googlecode.com/files/snaker_1.00_b7.zip
最新的版本也实现一个火车票刷票的功能(具体实现都放在engines/train.js)
评论
#
re: 开源网络爬虫Snaker
回复
更多评论
2012-12-25 11:18 by
杨先生
你好,我想和您商量关于爬虫信息问题,谢谢。19093188
新用户注册
刷新评论列表
只有注册用户
登录
后才能发表评论。
网站导航:
博客园
IT新闻
Chat2DB
C++博客
博问
管理
相关文章:
记录Android应用程序行为-peachbox
开源网络爬虫Snaker
Powered by:
BlogJava
Copyright © 小明
日历
<
2024年12月
>
日
一
二
三
四
五
六
24
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
常用链接
我的随笔
我的评论
我的参与
最新评论
留言簿
(5)
给我留言
查看公开留言
查看私人留言
随笔分类
分布式计算(13)
开发日志(6)
开源项目(2)
数据结构和算法(43)
机器学习
随笔档案
2013年5月 (5)
2013年4月 (17)
2012年11月 (1)
2012年3月 (15)
2012年2月 (1)
2012年1月 (3)
2011年10月 (1)
2005年12月 (2)
相册
1
My blogs
小明思考cppblog
小明思考C++版
搜索
最新评论
1. re: 回文字符串的切割问题
@selldogs
同意
这算法本身就是O(n^3)的
--2dog
2. re: 回文字符串的切割问题
第三个的复杂度也是 O(N^3) , 你每次判断是否是回文 不是也有一个O(N)的循环么
--selldogs
3. re: 子序列计数
评论内容较长,点击标题查看
--初学者:阿古
4. re: 交叉字符串[未登录]
交叉字符串是用来干嘛的
--wang
5. re: 交叉字符串
boolean[][] result = new boolean[l1+1][l2+1];
这一句什么作用?
--javanewer
阅读排行榜
1. leveldb研究6- Level和Compaction(7886)
2. Scramble String(6124)
3. leveldb研究 - 编译/调试(4820)
4. leveldb研究5- Snapshot(4469)
5. leveldb性能分析 - 随机写(4154)
评论排行榜
1. 最长连续序列问题(7)
2. 交叉字符串(4)
3. +1(3)
4. 有点难度的java笔试题(3)
5. 回文字符串的切割问题(3)