简单的解析文件，取URL地址，并根据地址抓下页面

/**
   *
   * 解析文件，取出URL地址
   *
   */
public static void regexStr(){
  String input="飞机但是http://mail.Sohu.com.cn飞机恺撒";
  Pattern p = Pattern.compile("http://[*[a-zA-Z]|w{3}].*[a-zA-Z]");
  Matcher m = p.matcher(input);
  m.find();
  String str=m.group();
        System.out.print(str);


}
/**
* 根据URL，把网页保存到本地
* @param urlStr
* @param filename
* @return
*/
public static boolean getUrlToFileInputStream(String urlStr, String filename){

DataInputStream dataInputStream=null;
try{
    URL url = new URL(urlStr);
           URLConnection conn = url.openConnection();
           dataInputStream = new DataInputStream(conn.getInputStream());

     }catch(Exception e){
     e.getMessage();

     }
     DataOutputStream dataoutputstream = null;
if(dataInputStream !=null){
         try {
    dataoutputstream = new DataOutputStream(new BufferedOutputStream(new FileOutputStream(filename)));

   byte b[] = new byte[1024*10];
   int len = 0;
   while ((len = dataInputStream.read(b, 0, 1024)) != -1) {
    dataoutputstream.write(b, 0, len);
   }

   dataoutputstream.flush();
         } catch (Exception e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
   }
            return true;
}else{
  return false;
}


}

posted on 2006-10-31 15:06 野风阅读(1288) 评论(1) 编辑收藏

常用链接

留言簿

我参与的团队

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理