zhyiwww
用平实的笔,记录编程路上的点点滴滴………
posts - 536,comments - 394,trackbacks - 0
<2010年2月>
31123456
78910111213
14151617181920
21222324252627
28123456
78910111213

-------------------------------------------
崇尚原创精神,
文章欢迎转载,
请您注明出处,
在此特别声明。
版权所有@zhyiwww
引用链接
http://www.blogjava.net/zhyiwww

--------------------------------------------

常用链接

留言簿(33)

随笔分类(626)

朋友的博客

最新随笔

搜索

  •  

积分与排名

  • 积分 - 1554693
  • 排名 - 11

最新评论

阅读排行榜

评论排行榜

用apache pdfbox来使现。

需要用到两个包pdfbox和fontbox.可以从apache网站下载。

读取PDF,我们只关心文字内容。核心代码如下:

        InputStream in = blobObj.getBinaryStream();

//        log.debug(in);

//        StringBuilder content = new StringBuilder(10000);

//        PDFParser parser = new PDFParser(in);
//        parser.parse();

//        log.debug(parser);

//        COSDocument doc = parser.getDocument();

        PDDocument pdDoc = PDDocument.load(in);
       
//        log.debug(pdDoc);
       
//        COSDocument cosDoc = pdDoc.getDocument();

        PDFTextStripper stripper = new PDFTextStripper("UTF-8");
       
//        StringWriter wr =  new StringWriter();
       
//        stripper.writeText(pdDoc, wr);

        String content = stripper.getText(pdDoc);
       
//        log.debug(content);
       
        pdDoc.close();





|----------------------------------------------------------------------------------------|
                           版权声明  版权所有 @zhyiwww
            引用请注明来源 http://www.blogjava.net/zhyiwww   
|----------------------------------------------------------------------------------------|
posted on 2010-02-04 13:58 zhyiwww 阅读(1115) 评论(0)  编辑  收藏 所属分类: j2ee

只有注册用户登录后才能发表评论。


网站导航: