HtmlCleaner,Html解析专家

通常互联网上的HTML页面都是不规则的，非结构化的页面。如果我们需要访问或者抽取里面的内容的话，我们需要分析HTML页面，去除垃圾。
而最近新发布的 HtmlCleaner 就是这样一个工具. 能够帮助我们将HTML 文档转化为结构化的XML文档。虽然目前已经有了类似这样的工具，但是HtmlCleaner 能够完成几乎所有的HTML转换，而且不到30k，这是他们值得称道的地方。

HtmlCleaner是一个开源的Html文档解析器。HtmlCleaner能够安全的解析和转换web上的HTML到标准的XML，重新排序每个元素，然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然后，用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的小，快速，灵活而且独立。HtmlCleaner也可用在Java代码中，当命令行工具或Ant任务。解析后编程轻量级文档对象，能够很容易的被转换到DOM或者JDom标准文档，或者通过各种方式(压缩，打印)连续输出XML。

新版本的重要功能更新包括：
1.HtmlCleaner的文档对象模型现在拥有了一些函数，处理节点和属性，所以现在在序列化之前搜索或者编辑是非常容易的。
2.提供基本HtmlCleaner DOM的XPath支持
3.使用XML配置温江让创建定制tag变得更加容易
4.修复多个bug以及API改进

更多详细信息：HTML Parser工具HtmlCleaner 2.0发布

本文作者：javaread.com

posted on 2008-07-17 10:06 javaread.com 阅读(4108) 评论(6) 编辑收藏

# re: HtmlCleaner,Html解析专家 2008-07-17 10:51 大水牛

昨天试了,感觉还不错回复更多评论

# re: HtmlCleaner,Html解析专家 2008-07-17 11:25 BeanSoft

呵呵就知道把链接都链到你的网站去变相广告太多了就不太好了回复更多评论

# re: HtmlCleaner,Html解析专家 2008-07-17 11:40 kenlee14

我可不管那么多，内容对我有用就行了。以前都用htmlparser来解析网页，试试这个东东看看再说。
嘿嘿，不好再回来踩你。回复更多评论

# re: HtmlCleaner,Html解析专家 2008-07-17 12:20 隔叶黄莺

以前用 htmlparser 就是碰到大部分都是不规则的 html 代码，有些没辙，这下好了，来了个新的搭档，估计那些问题都好解决了，标个记，以后需要用到时再回来。回复更多评论

# re: HtmlCleaner,Html解析专家 2008-07-17 12:42 很暴力

建议你的javaread.com上面加个rss，东西不错，我想订阅下，无奈找不到rss订阅地址啊。回复更多评论

# re: HtmlCleaner,Html解析专家[未登录] 2010-04-14 18:53 小毅

请问htmlCleaner 可以模拟通过用户名和密码来登录么？验证码又怎么处理？回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

# re: HtmlCleaner,Html解析专家 2008-07-17 10:51 大水牛

# re: HtmlCleaner,Html解析专家 2008-07-17 11:25 BeanSoft

# re: HtmlCleaner,Html解析专家 2008-07-17 11:40 kenlee14

# re: HtmlCleaner,Html解析专家 2008-07-17 12:20 隔叶黄莺

# re: HtmlCleaner,Html解析专家 2008-07-17 12:42 很暴力

# re: HtmlCleaner,Html解析专家[未登录] 2010-04-14 18:53 小毅

我的蛋壳

HtmlCleaner,Html解析专家

评论

导航

统计

常用链接

留言簿(3)

随笔档案

Java

友情链接

搜索

最新评论

阅读排行榜

评论排行榜