HTML Parser 替代品 jsoup

很久以前写过一篇文章利用htmlparser抓取网页内容(一),很多人都提问他的详细使用，其实我也只是入门尝试，如果想深入使用，还是建议看官方文档或者测试用例。不过最近刚好有个朋友想再次解析第三方网页内容，来查看交通违章信息。无意中发现一个比htmlparser更好用的html解析工具jsoup。最人性化的地方是，它支持类jquery语法，对，你没看错，是jquery选择器语法。下载地址：http://jsoup.org/
详细使用文档，这个地址应该说的很清楚了：http://baike.baidu.com/view/4066913.htm
使用非常简单,示例如下(是读取山西交通违章信息)：

1 import java.util.HashMap;
2 import java.util.Map;
3
4 import org.jsoup.Jsoup;
5 import org.jsoup.nodes.Document;
6 import org.jsoup.select.Elements;
7 /**
8  *
9  * @author Rocky
10  *
11  */
12 public class spider {
13     private static final String POSTURL="http://59.49.18.116:8008/sxwwpt_wai/inquire/illegalAction!carInquire.action";
14     private void spiderData() throws Exception{
15          Map<String,String> req=new HashMap<String,String>();
16          req.put("authCode", "");
17          req.put("csjcKey","110000");
18          req.put("hpzl", "02");
19          req.put("vioViolation.hphm", "xxx");//您的车牌号
20          req.put("type","1");
21          req.put("pagination.currentPage", "1");
22          req.put("pagination.pageSize", "5");
23
24          Document doc=Jsoup.connect(POSTURL).data(req).get();
25          Elements newsHeadlines=doc.select(".if_tr td");
26          System.out.println(newsHeadlines.text());
27     }
28     /**
29      * @param args
30      * @throws Exception
31      */
32     public static void main(String[] args) throws Exception {
33
34         spider spider=new spider();
35         spider.spiderData();
36     }
37
38 }

posted on 2013-08-07 13:25 老妖阅读(5884) 评论(4) 编辑收藏所属分类: java心得

常用链接

随笔分类(48)

随笔档案(104)

好友链接

我的豆瓣

积分与排名

最新评论

阅读排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: HTML Parser 替代品 jsoup 一个不错的界面原型制作工具（Balsamiq Mockups） Xfire。关于dlee介绍的Ajax dhtmlXTree的指南翻译草稿以及文件项目经验（二）利用htmlparser抓取网页内容(一) 关于 sitemesh 在weblogic spring下的乱码问题解决上传一份我整理的ant资料