Java抓取网页内容

用Java代码来抓取网页内容有很多种方法，可以直接用网络编程的知识链接到网站上用输入输出流的方式来读取内容，然后用正则表达是来解析流文件，得到自己想要的内容。不过有人已经将这种内容封装好了叫HTMLParser这个东西提供了很多的的方法可以使用，具体的网上有很多的例子他有三种方式来解析这个网页。下一节来说明他们之间的使用方式。

贴一个用URL的方式。这个代码虽然能出结果，不过好像有问题，还望高人指点！！

package com.xjsx.gethtml;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

public class GetHTML {

    /**
     * @param args
     */
    public static void main(String[] args) {

        try {

            URL url = new URL("http://www.baidu.com");

            URLConnection urlConnection = url.openConnection();

            InputStream inputStream = urlConnection.getInputStream();

            // InputStream inputStream = url.openStream();

            BufferedReader reader = new BufferedReader(new InputStreamReader(
                    inputStream));

            String date;

            while ((date = reader.readLine()) != null) {
                System.out.println(date);
            }

        } catch (MalformedURLException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

    }

}

发表于 2010-12-21 11:48 大道至简阅读(2431) 评论(1) 编辑收藏

# re: Java抓取网页内容

java抓取网页相关demo源代码下载地址：http://zuidaima.com/share/k%E6%8A%93%E5%8F%96%E7%BD%91%E9%A1%B5-p1-s1.htm

zuidaima 评论于 2014-11-25 15:36 回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理

Java抓取网页内容

导航

统计

常用链接

留言簿

随笔档案

文章分类

文章档案

相册

收藏夹

搜索

最新评论

阅读排行榜

评论排行榜