我的毕设题目是“基于able的互联网分布式主题搜索技术研究”,重点研究了搜索引擎的两个重要组成部分:网络信息的搜索和网页信息的抽取。所要设计实现的专利信息采集抽取系统可以让我们及时地了解某类专利在一定时期的发展状况,它是一个主题搜索引擎系统,包括专利网页抓取和专利信息抽取两个子系统。在专利网页抓取子系统中,利用网络爬行器,使用JSP脚本语言实现了原型系统的后端,即专利数据库的选择、查询结果的返回以及网页源文件的自动下载。在专利信息抽取子系统中,通过XML处理器和JTidy工具生成DOM树,利用XSLT样式表和XPath语句将下载到本地的HTML源文件转换成XML文件,从中进行专利信息的提取,然后通过Oracle JDBC驱动进行入库操作,最后利用IBM的able分布式软件平台将各种算法封装成Agent,以供将来的分布式运行。只要对信息源进行足够的分析工作,此系统可以应用在其它一些行业领域中,如股票价格查询、新闻信息搜索等等。我的系统还有许多不成熟的地方,欢迎有这方面经验的人与我一起探讨共勉!
qq:173635235
msn:bisal1130@yahoo.com.cn
emails:bill1130@gmail.com & bill15@tom.com