Ryan's Java world!

something about Java and opensource!

语源科技BlogJava

管理

51 Posts :: 25 Stories :: 59 Comments :: 0 Trackbacks

关于apache poi 抽取word文本的问题,

用如下的方法

WordDocument wd = new WordDocument(is);
StringWriter docTextWriter = new StringWriter();
wd.writeAllText(new PrintWriter(docTextWriter));
docTextWriter.close();
bodyText = docTextWriter.toString();
// bodyText = new WordExtractor().extractText(is);
System.out.println(bodyText);

抽取不出所有的文件, 好像有字数限制, 只能抽取前面部分字符. 是不是bug啊,

使用过poi的, 有没有遇到这种问题啊, 有没有好的办法呢, 路过的给点建议. 谢谢

posted on 2006-08-25 18:05 冰雨阅读(1640) 评论(4) 编辑收藏所属分类: Opensource

Feedback

# re: 关于apache poi 抽取word文本的问题, 2006-08-25 20:36 dudu

这样的文章不合适发布在BlogJava首页! 回复更多评论

# re: 关于apache poi 抽取word文本的问题, 2006-08-25 21:13 冰雨

哦知道了, 回复更多评论

# re: 关于apache poi 抽取word文本的问题, 2006-11-06 18:33 软件搜索

FileInputStream in = new FileInputStream ("c:\\a.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
System.out.println("the result length is"+str.length());
System.out.println("the result is"+str);

试试这个回复更多评论

# re: 关于apache poi 抽取word文本的问题, 2006-11-10 11:03 li

我也碰到一样的问题回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Frails 介绍. 关于maven2eclipse plugin的错误解决办法 AJAX支持的自动填充表单 Tomcat 问题: Cannot serialize session attribute XXX for ..的解决办法使用G4JSF集成 Google Web Toolkit 和 JSF(3) 使用G4JSF集成 Google Web Toolkit 和 JSF(2) 使用G4JSF集成 Google Web Toolkit 和 JSF(1) 替换类路径中的jar文件(在eclipse中升级jar文件 -- eclipse使用技巧) JSF组件 : Rss4JSF - show Rss content in JSF pages 关于apache poi 抽取word文本的问题,

JSF中文技术文摘

Ryan's Java world!

常用链接

留言簿(3)

我参与的团队

随笔分类(40)

随笔档案(51)

文章分类(18)

文章档案(25)

相册

收藏夹(9)

Java技术

搜索

最新评论

阅读排行榜

评论排行榜

Feedback