关于线程及线程池的基本知识
摘要: 线程是Java的一大特性,它可以是给定的指令序列、给定的方法中定义的变量或者一些共享数据(类一级的变量)。在Java中每个线程有自己的堆栈和程序计数器(PC),其中堆栈是用来跟踪线程的上下文(上下文是当线程执行到某处时,当前的局部变量的值),而程序计数器则用来跟踪当前线程正在执行的指令。
阅读全文
JAVA性能优化-通用篇
摘要: “通用篇”讨论的问题适合于大多数Java应用。
阅读全文
输出全组合字符序列排列的算法
摘要: 全组合是本人根据全排列的说法创造的,其表达的内容是:将2Cn到(n-1)Cn对应的字符串序列依次输出(当然了,会去掉组合数值相同的组合排列,也就是只需要计算2~(n-1)/2)),这样能够满足特定部门的需求
阅读全文
清华文通扫描识别保存文件之研究、分析
摘要: 其核心思想是,对纸张扫描后的图片进行分而治之的思想,由大化小。这和现在Google的MapReduce,Nutch中使用的Hadoop的思想是一致的。看来计算机中的算法到了一定程度上也有了哲学的东西在其中啊,毕竟计算机是用于解决人类世界的问题的,所以哲学也在计算机算法之上啊。
阅读全文
OpenOffice.org之恋(六)
摘要: 如果办公软件组件支持适用于实现 com.sun.star.document.OfficeDocument 服务的每个组件的com.sun.star.frame.XStorable 接口,则可以存储该组件
阅读全文
Nutch 相关 (三) Nutch的分词的架构
摘要: Nutch分词的最底层使用的是lucene的Analyzer抽象类,它位于org.apache.lucene.analysis包中, NutchAnalyzer继承了Analyzer类、实现了Configurable、Pluggable接口,该抽象类中定义了一个公有的抽象方法 tokenStream(String fieldName, Reader reader)返回的类型是TokenStream。
阅读全文
Nutch 相关 (二)分词的算法
摘要: 说到Nutch中要使用中文分词,因为中文分词程序的速度很快,需要分词的每篇文章字数不会达到需要占用其很长时间的程度。因此,对于每篇文章分词的请求可以看作是大量短小线程的请求,此时使用线程池技术是非常合适的,它可以极大减小线程的创建和销毁次数,提高程序的工作效率。
阅读全文
Nutch 相关 (一) 爬虫的研究
摘要: Nutch是支持插件扩展的,这样就可以满足各个不同使用群体的特定需求,例如是要做垂直搜索,并收集特定信息的收集
阅读全文
OpenOffice.org之恋(五)
摘要: OOo 中的“框架 - 控制器 - 模型”模式
阅读全文