使用 JTidy 协助抽取网页内容

Tidy 是 W3C 用来解析网页的一个软件包，可以方便地将 HTML 文档转换为符合 XML 标准的文档，由于 XML 可以方便地使用 XSLT 技术对内容进行抽取，所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来，保存成我们需要的格式。

通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象，然后，通过 XPaht 和 XSLT 将需要的内容抽取出来。

使用 JTidy 抽取网页内容的代码如下：

package com.tsinghua;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.util.logging.Level;
import java.util.logging.Logger;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.Result;
import javax.xml.transform.Source;
import javax.xml.transform.Templates;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerConfigurationException;
import javax.xml.transform.TransformerException;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import javax.xml.transform.stream.StreamSource;

import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.w3c.tidy.Configuration;
import org.w3c.tidy.Tidy;
import org.xml.sax.SAXException;

public class HTMLParserByW3CDOM {
private Templates template;
/*
* 解析网页
* XSLTFileName 用于解析网页的样式表文件名
* HTMLFileName 待解析的网页文件名
* OutputFileName 输出文件名
*/
public void parser(String HTMLFileName, String OutputFileName)
{
  if( this.template != null){
   Document doc = this.HTMLToXML( HTMLFileName ); // 解析网页，返回 W3c Document 文档对象
   Transformer(doc, OutputFileName);    // 使用样式表转换 Document 为最终结果
  }
}

/**
* 解析网页，转换为 W3C Document 文档对象
* @param fileName HTML 网页的文件名
* @return   utf-8 W3C Document 文档对象
*/
private Document HTMLToXML(String fileName) {
  Logger log = Logger.getLogger("HTMLToXML");
  Document doc = null;
  try{
   FileInputStream in = new FileInputStream( fileName ); // 打开文件，转换为 UTF-8 编码
   InputStreamReader isr = new InputStreamReader(in, "GB2312"); // 源文件编码为 gb2312

   File tmpNewFile = File.createTempFile("GB2312",".html"); // 转换后的文件，设定编码为 utf-8
   FileOutputStream out = new FileOutputStream( tmpNewFile ); // 需要将文件转换为字符流
   OutputStreamWriter osw = new OutputStreamWriter( out , "UTF-8");// 指定目标编码为 utf-8
   osw.write("<?xml version=\"1.0\" encoding=\"utf-8\"?>\n");

   char[] buffer = new char[10240];      // 文件缓冲区
   int len = 0;           // 使用字符读取方式，循环读取源文件内容
   while( (len = isr.read(buffer)) !=-1 )     // 转换后写入目标文件中
   {
    osw.write( buffer, 0, len);
   }
   osw.close();           // 转换完成
   isr.close();
   out.close();
   in.close();

   if( log.isLoggable( Level.INFO)){
    log.info("HTML 文档转 UTF-8 编码完成！");
   }

   //  设置 tidy ，准备转换
   Tidy tidy = new Tidy();
   tidy.setXmlOut(true);    // 输出格式 xml
   tidy.setDropFontTags(true);   // 删除字体节点
   tidy.setDropEmptyParas(true);  // 删除空段落
   tidy.setFixComments(true);   // 修复注释
   tidy.setFixBackslash(true);   // 修复反斜杆
   tidy.setMakeClean(true);   // 删除混乱的表示
   tidy.setQuoteNbsp(false);   // 将空格输出为  
   tidy.setQuoteMarks(false);   // 将双引号输出为 "
   tidy.setQuoteAmpersand(true);  // 将 & 输出为 &
   tidy.setShowWarnings(false);  // 不显示警告信息
   tidy.setCharEncoding(Configuration.UTF8); // 文件编码为 UTF8


   FileInputStream src = new FileInputStream( tmpNewFile ); //
   doc = tidy.parseDOM( src ,null ); // 通过 JTidy 将 HTML 网页解析为
   src.close();           // W3C 的 Document 对象
   tmpNewFile.delete();         // 删除临时文件

   NodeList list = doc.getChildNodes();     // 页面中 DOCTYPE 中可能问题
   for(int i=0; i<list.getLength(); i++)     // 删除 DOCTYPE 元素
   {
    Node node = list.item(i);
    if( node.getNodeType() == Node.DOCUMENT_TYPE_NODE) // 查找类型定义节点
    {
     node.getParentNode().removeChild( node );
     if( log.isLoggable( Level.INFO)){
      log.info("已经将文档定义节点删除！" );
     }
    }
   }

   list = doc.getElementsByTagName("script");    // 脚本中的注释有时有问题
   for(int i=0; i<list.getLength(); i++){     // 清理 script 元素
    Element script = (Element) list.item(i);
    if( script.getFirstChild() != null){
     if( log.isLoggable( Level.FINEST)){
      log.finest("删除脚本元素: " + script.getFirstChild().getNodeValue());
     }
     script.removeChild( script.getFirstChild());
    }
   }

   list = doc.getElementsByTagName("span");    // sina 中 span 元素有时有问题
   for(int i=0; i<list.getLength(); i++){     // 清理 span 元素
    Element span = (Element) list.item(i);
    span.getParentNode().removeChild( span );
    if( log.isLoggable( Level.FINEST)){
     log.finest("删除 span 元素: " );
    }

   }

   list = doc.getElementsByTagName("sohuadcode");   // 清除 sohuadcode 元素
   for(int i=0; i<list.getLength(); i++){
    Element sohuadcode = (Element) list.item(i);
    sohuadcode.getParentNode().removeChild( sohuadcode );
   }

   if( log.isLoggable( Level.INFO)){
    log.info("HTML 文档解析 DOM 完成.");
   }
  }
  catch(Exception e)
  {
   log.severe(e.getMessage());
   e.printStackTrace();
  }finally
  {

  }
  return doc;
}

/**
* 解析转换的样式表，保存为模板
* @param xsltFileName  样式表文件名
* @return     样式表模板对象
*/
public Templates setXSLT(String xsltFileName)
{
  Logger log = Logger.getLogger( "setXSLT" );
  File xsltFile = new File( xsltFileName );
  StreamSource xsltSource = new StreamSource( xsltFile );  // 使用 JAXP 标准方法建立样式表的模板对象
  TransformerFactory tff = TransformerFactory.newInstance(); // 可以重复利用这个模板
  Templates template = null;
  try {
   template = tff.newTemplates( xsltSource );
   if( log.isLoggable( Level.INFO)){
    log.info("样式表文件 " + xsltFileName + " 解析完成");
   }
  } catch (TransformerConfigurationException e) {
   log.severe( e.getMessage() );
  }
  this.template = template;
  return template;
}

/**
* 使用样式表转换文档对象，得到最终的结果
* @param doc   文档对象
* @param outFileName 保存转换结果的文件名
*/
private void Transformer(Document doc , String outFileName )
{
  Logger log = Logger.getLogger( "Transformer" );
  try {
   Source source = new DOMSource( doc );

   File outFile = new File( outFileName );
   Result result = new StreamResult( outFile );

   Transformer transformer = template.newTransformer(); // 使用保存的样式表模板对象
   transformer.transform(source, result );     // 生成转换器，转换文档对象
   if( log.isLoggable( Level.INFO)){
    log.info("转换完成, 请查看 " + outFileName + " 文件。");
   }
  } catch (Exception e) {
   log.severe( e.getMessage() );
  }
}
}

发表于 2006-03-02 22:03 haogj 阅读(7996) 评论(19) 编辑收藏

# re: 使用 JTidy 协助抽取网页内容回复更多评论

不错，学习～～

123steel 评论于 2006-03-03 11:25

这段程序有问题

eonzhang 评论于 2006-03-27 15:05

请问有什么问题？

haogj 评论于 2006-03-28 08:24

非常感谢老师的教导、帮助和支持！

mxm 评论于 2006-05-09 21:03

输出在哪呢

zhou 评论于 2006-09-23 18:17

这个转换对象使用下面的方法进行转换，结果存放在 outFileName 文件中

/**
* 使用样式表转换文档对象，得到最终的结果
* @param doc 文档对象
* @param outFileName 保存转换结果的文件名
*/
private void Transformer(Document doc , String outFileName )

haogj 评论于 2006-09-24 17:34

请问JTIDY的中文乱码问题怎么解决？

aaa 评论于 2006-10-22 23:17

指定输出文件时，怎么老报下面的异常：
2007-3-15 11:17:15 jtidy.HTMLParserByW3CDOM Transformer
严重: java.io.FileNotFoundException: file:\e:\csm\DEV\cdcatalog.xml (文件名、目录名或卷标语法不正确。)

xiaolang 评论于 2007-03-15 11:23

xsltFile样式表文件是什么？怎么建立阿，没有这个程序不能运行。template没有初始化，程序不能往下执行，直接跳出运行完毕

echo 评论于 2007-05-17 08:27

# re: 使用 JTidy 协助抽取网页内容[未登录] 回复更多评论

xslt 是 xml 的转换样式表，这里是一个用于提取 sina 新闻的例子 http://www.blogjava.net/haogj/archive/2006/03/20/36437.html

haogj 评论于 2007-05-17 23:30

可是怎么没有main函数，麻烦楼主说的清楚点好吗？

xiaoyao 评论于 2007-06-06 10:21

你好，我正需要做一个和你差不多的东西，不过一直有问题，就是jtidy的中文显示问题，请问你怎么解决的，还有你的例子能给的再详细一点吗？把完整的给我，先多谢了

xiaoyao 评论于 2007-06-06 11:03

jtidy 中文问题：我们普通的网页编码使用 gb2312, 使用 jtidy 时，会出现乱码问题，解决的办法就是首先将网页重新编码为 utf-8 ，然后再进行处理，就不会出现乱码问题，见下面的代码

FileInputStream in = new FileInputStream( fileName ); // 打开文件，转换为 UTF-8 编码
InputStreamReader isr = new InputStreamReader(in, "GB2312"); // 源文件编码为 gb2312

File tmpNewFile = File.createTempFile("GB2312",".html"); // 转换后的文件，设定编码为 utf-8
FileOutputStream out = new FileOutputStream( tmpNewFile ); // 需要将文件转换为字符流
OutputStreamWriter osw = new OutputStreamWriter( out , "UTF-8");// 指定目标编码为 utf-8

haogj 评论于 2007-06-06 20:31

没有 main 函数问题：

上面的代码给出的是一个基于样式表的转换类，不能单独使用，main 函数需要自己写，main 函数中基本上如下所示：

HTMLParserByW3CDOM hpb = new HTMLParserByW3CDOM ();
hpb.setXSLT( 样式表的文件名 );
hpb.parser( HTML文件名，转换结果的XML文件名 );

注意：HTML文件是普通的 gb2312 编码的网页，不需要预先处理成utf-8

haogj 评论于 2007-06-06 20:37

你好，我根据你的提示，用sina的例子转换以后的xml怎么就下面这些内容啊
<?xml version="1.0" encoding="UTF-8"?>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>Sina newsletter</title>
</head>
<body/>
</html>
别的信息都没有显示出来，请问是怎么回事啊？多谢你了

xiaoyao 评论于 2007-06-07 09:37

这程序能用吗？真晕。。。
无论输入是什么网站，显示的信息都是一样的，输入的信息如下：
<?xml version="1.0" encoding="UTF-8"?>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>Sina newsletter</title>
</head>
<body/>
</html>

amen 评论于 2008-07-07 11:45

你必须定义对应的 xslt 样式表，这个程序负责使用 xslt 进行转换。

haogj 评论于 2010-04-15 22:27

Error: <header> is not recognized!
Error: <section> is not recognized!
请问如果出现这种问题是什么原因，这些貌似是html5的标签，是因为jtidy不能识别吗，有什么解决办法？

jiangix11 评论于 2016-03-12 15:46

你好，样式表怎么写呢？一点都不会，问题可能比较笨，拜托了急用。

听海评论于 2016-04-12 22:24

常用链接

留言簿(12)

随笔分类

随笔档案

文章分类

.Net

友情链接

搜索

最新评论

阅读排行榜

评论排行榜