首先得下载xpdf-3.00pl3-win32.zip和xpdf-chinese-simplified.tar.gz二个包 配置: 1。xpdf-3.00pl3-win32.zip写压后改名为xpdf 2。修改xpdfrc文件 (1)在文件最下面加入
(2)另外,配置文件中原先没有加上一个“textPageBreaks”控制。为了避免这个分页符号,我们需要在xpdfrc文件“text output control”下面加上这么一段话:
# If set to "yes", text extraction will insert page
# breaks (form feed characters) between pages. This
# defaults to "yes".
textPageBreaks no
设置textPageBreaks为no的意思是:在PDF文档的两页之间不加入分页符号。
之所以这样,是因为这个符号有时候会引起SAX解析XML上的困难。
读PDF文件
Copyright © angel