梦幻e家人

java咖啡
随笔 - 15, 文章 - 0, 评论 - 11, 引用 - 0
数据加载中……

使用tm-extractors-0.4.jar来读取word文件

package searchfileexample;

import javax.servlet.*;
import javax.servlet.http.*;
import java.io.*;
import java.util.*;
import org.textmining.text.extraction.WordExtractor;

public class ReadWord extends HttpServlet {
  private static final String CONTENT_TYPE = "text/html; charset=GBK";

  //Initialize global variables
  public void init() throws ServletException {
  }

  //Process the HTTP Get request
  public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
    response.setContentType(CONTENT_TYPE);
    FileInputStream in = new FileInputStream ("D:/lfy_programe/全文检索/SearchFileExample/a/aa.doc");
       //  FileInputStream in = new FileInputStream ("D:/szqxjzhbase/技术测试/新建 Microsoft Word 文档.doc");
   WordExtractor extractor = new WordExtractor();
   System.out.println(in.available());
  String str = null;
  try {
    str = extractor.extractText(in);
  }
  catch (Exception ex) {
  }
//    System.out.println("the result length is"+str.length());
   System.out.println(str);

  }

  //Clean up resources
  public void destroy() {
  }
}

posted on 2008-03-18 10:33 轩辕 阅读(5496) 评论(5)  编辑  收藏 所属分类: java

评论

# re: 使用tm-extractors-0.4.jar来读取word文件  回复  更多评论   

谢了
2011-04-15 13:43 | kuchoo

# re: 使用tm-extractors-0.4.jar来读取word文件  回复  更多评论   

AAAAAAAAAAAAAAAAAAAAAAA
2011-06-27 08:54 | 楼上

# re: 使用tm-extractors-0.4.jar来读取word文件  回复  更多评论   

我用了怎么读写不了啊?
2012-06-01 16:49 | cxf

# re: 使用tm-extractors-0.4.jar来读取word文件[未登录]  回复  更多评论   

还有点没有弄出来
2013-03-26 22:01 | hades

# re: 使用tm-extractors-0.4.jar来读取word文件  回复  更多评论   

java.lang.NoSuchMethodError: org.apache.poi.poifs.filesystem.POIFSFileSystem.getRoot()Lorg/apache/poi/poifs/filesystem/DirectoryEntry;
2013-04-15 15:48 | 撒旦法

只有注册用户登录后才能发表评论。


网站导航: