用Java代码来抓取网页内容有很多种方法,可以直接用网络编程的知识链接到网站上用输入输出流的方式来读取内容,然后用正则表达是来解析流文件,得到自己想要的内容。不过有人已经将这种内容封装好了叫HTMLParser这个东西提供了很多的的方法可以使用,具体的网上有很多的例子 他有三种方式来解析这个网页。下一节来说明他们之间的使用方式。
贴一个用URL的方式。这个代码虽然能出结果,不过好像有问题,还望高人指点!!
package com.xjsx.gethtml;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
public class GetHTML {
/**
* @param args
*/
public static void main(String[] args) {
try {
URL url = new URL("http://www.baidu.com");
URLConnection urlConnection = url.openConnection();
InputStream inputStream = urlConnection.getInputStream();
// InputStream inputStream = url.openStream();
BufferedReader reader = new BufferedReader(new InputStreamReader(
inputStream));
String date;
while ((date = reader.readLine()) != null) {
System.out.println(date);
}
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}