天空

 
 

常用链接

  • 我的随笔
  • 我的评论
  • 我的参与
  • 最新评论

留言簿(12)

  • 给我留言
  • 查看公开留言
  • 查看私人留言

随笔分类

  • Database (rss)
  • JSP(4) (rss)
  • Linux(2) (rss)
  • XML(5) (rss)
  • 其它(1) (rss)
  • 竞赛题(1) (rss)

随笔档案

  • 2006年9月 (2)
  • 2006年7月 (2)
  • 2006年6月 (3)
  • 2006年4月 (5)
  • 2006年3月 (6)

文章分类

  • Linux(1) (rss)

.Net

  • .Net
  • 华育国际
  • 江南白衣

友情链接

  • 搬家公司
  • 讨债公司

搜索

  •  

最新评论

  • 1. re: 使用 JTidy 协助抽取网页内容
  • 你好,样式表怎么写呢?一点都不会,问题可能比较笨,拜托了急用。
  • --听海
  • 2. re: 使用 JTidy 协助抽取网页内容
  • 评论内容较长,点击标题查看
  • --jiangix11
  • 3. re: 使用 Java 生成 MD5 编码[未登录]
  • fomat 字节为负数生成的结果对吗
  • --无名
  • 4. re: VMware, Fedora 5 安装问题
  • 你好我也遇到了No X Install Found的问题,能否发个vmware-config-tools.pl 给我。谢谢了
  • --wh8908
  • 5. re: 字符编码的奥秘
  • 不错
  • --lymin

阅读排行榜

  • 1. 使用 Java 生成 MD5 编码(56324)
  • 2. 使用 JTidy 协助抽取网页内容(7966)
  • 3. 字符编码的奥秘(5645)
  • 4. 详细介绍在tomcat中配置数据源以及数据源的原理 (3888)
  • 5. 配制 eclipse 3.1 使用中文 JavaAPI (2574)

评论排行榜

  • 1. 使用 JTidy 协助抽取网页内容(19)
  • 2. 字符编码的奥秘(10)
  • 3. 用于解析 sina 新闻页面的 XSLT 文件 (10)
  • 4. 使用 Java 生成 MD5 编码(10)
  • 5. 配制 eclipse 3.1 使用中文 JavaAPI (5)

Powered by: 博客园
模板提供:沪江博客
BlogJava | 首页 | 发新随笔 | 发新文章 | 联系 | 聚合 | 管理

我的评论

re: 使用 JTidy 协助抽取网页内容[未登录] haogj 2010-04-15 22:27  
你必须定义对应的 xslt 样式表,这个程序负责使用 xslt 进行转换。
re: 用于解析 sina 新闻页面的 XSLT 文件 [未登录] haogj 2008-12-03 21:57  
haoguanjun@gmail.com

用这个信箱联系我。
re: 用于解析 sina 新闻页面的 XSLT 文件 [未登录] haogj 2008-12-01 22:04  
这个样式表用来解析新闻内容页面,不是用来处理新闻主页的。
re: 用于解析 sina 新闻页面的 XSLT 文件 [未登录] haogj 2008-12-01 01:21  
注意编码问题,上面的 xml 文件编码为 utf-8,你保存下来的时候,最好使用 记事本,选择另存为,在对话框中选择一下编码为 utf-8。
re: 使用 JTidy 协助抽取网页内容[未登录] haogj 2007-06-06 20:37  
没有 main 函数问题:

上面的代码给出的是一个基于样式表的转换类,不能单独使用,main 函数需要自己写,main 函数中基本上如下所示:

HTMLParserByW3CDOM hpb = new HTMLParserByW3CDOM ();
hpb.setXSLT( 样式表的文件名 );
hpb.parser( HTML文件名,转换结果的XML文件名 );

注意:HTML文件是普通的 gb2312 编码的网页,不需要预先处理成utf-8
re: 使用 JTidy 协助抽取网页内容[未登录] haogj 2007-06-06 20:31  
jtidy 中文问题:我们普通的网页编码使用 gb2312, 使用 jtidy 时,会出现乱码问题,解决的办法就是首先将网页重新编码为 utf-8 , 然后再进行处理,就不会出现乱码问题,见下面的代码

FileInputStream in = new FileInputStream( fileName ); // 打开文件,转换为 UTF-8 编码
InputStreamReader isr = new InputStreamReader(in, "GB2312"); // 源文件编码为 gb2312

File tmpNewFile = File.createTempFile("GB2312",".html"); // 转换后的文件,设定编码为 utf-8
FileOutputStream out = new FileOutputStream( tmpNewFile ); // 需要将文件转换为字符流
OutputStreamWriter osw = new OutputStreamWriter( out , "UTF-8");// 指定目标编码为 utf-8
re: 使用 JTidy 协助抽取网页内容[未登录] haogj 2007-05-17 23:30  
xslt 是 xml 的转换样式表,这里是一个用于提取 sina 新闻的例子 http://www.blogjava.net/haogj/archive/2006/03/20/36437.html
re: 使用 JTidy 协助抽取网页内容 haogj 2006-09-24 17:34  
这个转换对象使用下面的方法进行转换,结果存放在 outFileName 文件中

/**
* 使用样式表转换文档对象,得到最终的结果
* @param doc 文档对象
* @param outFileName 保存转换结果的文件名
*/
private void Transformer(Document doc , String outFileName )
re: 使用 JTidy 协助抽取网页内容 haogj 2006-03-28 08:24  
请问有什么问题?