日历
| 日 | 一 | 二 | 三 | 四 | 五 | 六 |
---|
27 | 28 | 29 | 30 | 31 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
|
导航
留言簿(1)
随笔分类(31)
文章分类(4)
收藏夹(21)
搜索
积分与排名
最新随笔
最新评论
阅读排行榜
|
-
(转)TB级别的网页容器实现方法参考
摘要: 转自javaeye。一个高性能的Web爬虫,必须有一个合适的网页容器。该容量最大的特点是要能够通过URL直接存取网页内容,并且要求有很高的性能,在一个千万级别的容器中存取一万次的时间应在1分钟左右(普通PC上)。采用拆衷的办法,在文件系统的基础上建立一组大文件和一组辅助文件,辅助文件实现通过URL定位该URL代表的网页在大文件中的位置,从页实现不随文件数量增长而性能变化的快速存取。以下将描述一个简洁的实现。 阅读全文
-
常用中文分词- 整理收集
摘要: 在网上搜集并整理了一些常用中文分词包,后面慢慢补全: 庖丁解牛分词包;LingPipe,开源自然语言处理的Java开源工具包;JE分词包;LibMMSeg;IKAnalyzer;PHPCWS 阅读全文
-
字符集编码和编码字符集(转摘)
-
Base64编码学习和java源程序实现
-
Java 生成随机序列
摘要: 从网上总结的比较好的生成随机序列的算法:) 阅读全文
|