|
2005年5月29日
tss中文:开源面向对象的数据库db4o 5.5版发布了
近日db4objects发布了开源面向对象数据库
db4o 5.5 版本. 这个版本的焦点是提高了性能降低了内存耗用,特别针对资源紧张的嵌入式开发提供了支持。
具体的改进特性: - 类索引使用新BTree架构,极大减少了事务提交的时间,对象个数在10万之1千万的索引时表现极为明显。 -通过更好的群集插槽方式,改进字符串和数组的序列化方式,在插入和修改时提高了效率。
-提供了诊断工具包,帮助程序员更容易开发出高效程序。
-本次改进效率的提升可以让内存耗用更低。
伴随着 这次发布,db4objects 还提供了用户交流社区:
这里
。
原文: db4o open source object database v 5.5 released
一种面向搜索引擎的网页分块、切片的原理,实现和演示
最近看到 2005 年的 全国搜索引擎和网上信息挖掘学术研讨会 上 华南木棉信息检索的队长 欧健文 的 华南木棉信息检索 的ppt。很有启发。
于是自己也根据自己的理解准备做一个实现。 实现前提假设: 1、网页分块切分的基本单位是html中的table , div 等标签(目前版本只支持:table ,div 标签)。 2、网页分块切片识别依赖于相似url的对比。比如:我们认为一下两个url的网页html文本结构相似: http://news.soufun.com/2005-11-26/580107.htm http://news.soufun.com/2005-11-26/580175.htm 而下面两个url的网页结构不相似: http://news.soufun.com/subject/weekly051121/index.html http://news.soufun.com/2005-11-26/580175.htm
用途: 1、根据分析网页结构区分网页是 主题型网页 还是 目录型网页; 2、根据分析网页结构 找出 网页的 主题内容,相关内容和噪音内容;
实现的3个阶段: 1、对网页结构进行合理切片; 2、比较相似网页的切片结构; 3、分析切片数据,得出结论。 演示地址: http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp
一种快速的未登陆词识别方法(原理和实现)
最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放. 但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉.
算法的假设: 1. 未登陆词是由单字组成的; 2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词;
测试文章: 最近电视剧大长今很火,我就选取了介绍大长今的文章, 地址:http://www.360doc.com/showWeb/0/0/18183.aspx 识别结果如下: PDH : initialize phrase dictionary QuerySpliter reInitialize dictionary. 长今,职场,闵政浩,韩剧,郑云白,连生,主簿,冷庙高香,义字,医女,张德,剩者,济州,选拨,文秘
算法原理: 首先找出已经分词后的单字,然后查看单字的下一个是否还是单字,如果是,判断这种情况出现的次数,如果超过预订的阀值,那么就确认这是一个新词. 下面是一个算法的计算过程展示: PDH : initialize phrase dictionary QuerySpliter reInitialize dictionary. >>>8,9;9,10 长今 >>>237,238;238,239 职场 >>>595,596;596,597;597,598 闵政浩 >>>189,190;190,191 韩剧 >>>1111,1112;1112,1113;1113,1114 郑云白 >>>599,600;600,601 连生 >>>610,611;611,612 主簿 >>>975,976;976,977;977,978;978,979 冷庙高香 >>>1233,1234;1234,1235 义字 >>>559,560;560,561 医女 >>>561,562;562,563 张德 >>>3114,3115;3115,3116 剩者 >>>534,535;535,536 济州 >>>580,581;581,582 选拨 >>>2071,2072;2072,2073 文秘 本算法是在:小叮咚分词的基础上进行的. 欢迎大家一起交流,改进这个算法. 相关连接: 基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题
Lucene使用者沙龙
原帖地址
什么是垂直搜索引擎(之二)
垂直搜索引擎的三个特点:
1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点: 比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等; 股票搜索引擎 www.macd.cn 的数据来源于: www.jrj.com.cn , www.gutx.com 等股票站点; 2、垂直搜索引擎抓取的数据倾向于结构化数据和元数据: 比如:我们找工作关注的: 职位信息: 软件工程师; 公司名称,行业名称:软件公司,外包行业等; 地点:北京,海淀; 3、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索: 比如: 找:海淀 软件工程师 的工作等。
垂直搜索引擎站点的8条准则:
1、选择一个好的垂直搜索方向。俗话说男怕选错行,这一点对于搜索引擎来说也是一样的,除了选择的这个行业有垂直搜索的大量需求外,这个行业的数据属性最好不要和 Yahoo,Google等通用搜索的的抓取方向重叠。 目前热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点;
2、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况: 我们都知道垂直搜索引擎并不提供内容来源,它的数据依赖爬虫搜集,并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。 3、深入分析垂直搜索引擎的索引数据特点: 垂直搜索引擎的索引数据过于结构化,那么进入的门槛比较低,行业竞争会形成一窝蜂的局面;如果搜索数据特点是非结构化的,抓取,分析这样的数据很困难,进入壁 垒太高,很可能出师未杰身先死。 4、垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于yahoo,google等通用搜索引擎的,这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业 ,因此行业知识,行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的。 5、垂直搜索引擎的搜索结果要覆盖整个行业,搜索相关性要高于通用搜索引擎,贴近用户搜索意图,搜索结果要及时。 6、垂直搜索引擎的web 2.0 需求: 垂直搜索引擎的搜索数据由于带有结构化的天性,相对于通用搜索引擎的全文索引而言,更显的少而精。因此,设计的时候要提供收集用户数据的接口,同时提供tag,积 分等机制,使搜索结果更加“垂直”。 7、垂直搜索引擎的目标是帮助用户解决问题,而不只是向通用搜索引擎一样发现信息: 这一点是垂直搜索引擎的终极目标。 在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是 让
用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创
的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途
径是一个关键部分。 8、垂直搜索引擎的社区化特征: 这一条和第9条是相关的。 俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的人群,这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题,分享回馈。现在做网站都讲求社区化,所以垂直搜索引擎本质上还是:对垂直门户信息提供方式的一次简化性的整合。
相关连接:什么是垂直搜索引擎
原帖地址
Boyer-moor 字符串搜索算法
最近因为需要从大量的文本中检索字符串,于是想比较一下java jdk提供的 indexof 算法,和其他字符串搜索算法的效率。字符串搜索算法有多种,其中比较有名的是boyer-moore算法。在Moore 先生的主页上有关于 boyer-moore算法的详细介绍。 moore先生介绍的通俗易懂,相信大家都能看明白。
同时还看到:Boyer-Moore串查找JAVA算法这篇文章 ,可惜是安徽工业大学的内部刊物,无法看到文章的详情,真是遗憾。
相关连接: boyer-moore 算法文档中心 多么乐
多么乐alexa网站流量数据报告助手
为了您方便的获取您所关心网站的alexa网站流量数据,多么乐特的为您制作了这款工具,使用方法很简单,只要按照要求输入网站地址和您的邮件地址并制定邮件发送的时间,我们就会定期给您
发送alaxe统计数据。
在以后我们还会对数据进行进一步分析,提供更加满意的服务!
相关连接: Alaxe 网站数据助手
多么乐 搜索引擎索引量报告--实现了自动发送周报功能
自从 多么乐 搜索引擎 索引量 统计报告发布一来已经有100多位站长登陆使用;为了把这部分数据主动送到各位站长手中,我特地制作了 这个周报功能,他将会在没周六下午3点10分,给您提供贵站在google,baidu,yisou,msn等主流搜索引擎上的索引量数据。
如果您想也使用这项功能,您可以在: 搜索引擎统计 上登陆您的网址,(注意按照要求填写。)
并提供您的Email地址。
如果有意见和建议请发信到: xiaodingdong@gmail.com
下面是一个邮件例子:
网址 |
日期 |
搜索引擎 |
平均索引量 |
blogchina.com |
2005-06-12 |
baidu |
8,770,000.0 |
blogchina.com |
2005-06-12 |
google |
2,520,000.0 |
blogchina.com |
2005-06-12 |
msn |
212,088.00 |
blogchina.com |
2005-06-12 |
yisou |
5,632,696.0 |
blogchina.com |
2005-06-13 |
baidu |
8,740,000.0 |
blogchina.com |
2005-06-13 |
google |
1,210,000.0 |
blogchina.com |
2005-06-13 |
msn |
224,448.00 |
blogchina.com |
2005-06-13 |
yisou |
5,788,532.0 |
blogchina.com |
2005-06-14 |
baidu |
9,320,000.0 |
blogchina.com |
2005-06-14 |
google |
1,110,000.0 |
blogchina.com |
2005-06-14 |
msn |
212,176.00 |
blogchina.com |
2005-06-14 |
yisou |
5,904,606.0 |
blogchina.com |
2005-06-16 |
baidu |
41,670,000. |
blogchina.com |
2005-06-16 |
msn |
1,068,831.0 |
blogchina.com |
2005-06-16 |
yisou |
27,161,082. |
blogchina.com |
2005-06-17 |
baidu |
42,030,000. |
blogchina.com |
2005-06-17 |
msn |
109,929.00 |
blogchina.com |
2005-06-17 |
yisou |
27,369,993. |
blogchina.com |
2005-06-18 |
baidu |
46,900,000. |
blogchina.com |
2005-06-18 |
google |
9,310,000.0 |
blogchina.com |
2005-06-18 |
yisou |
30,492,025. |
itpub.net |
2005-06-12 |
baidu |
862,000.00 |
itpub.net |
2005-06-12 |
google |
261,000.00 |
itpub.net |
2005-06-12 |
msn |
14,070.00 |
itpub.net |
2005-06-12 |
yisou |
42,090.00 |
itpub.net |
2005-06-13 |
baidu |
857,000.00 |
itpub.net |
2005-06-13 |
google |
132,000.00 |
itpub.net |
2005-06-13 |
msn |
13,538.00 |
itpub.net |
2005-06-13 |
yisou |
42,100.00 |
itpub.net |
2005-06-14 |
baidu |
866,000.00 |
itpub.net |
2005-06-14 |
google |
132,000.00 |
itpub.net |
2005-06-14 |
msn |
12,994.00 |
itpub.net |
2005-06-14 |
yisou |
41,274.00 |
itpub.net |
2005-06-16 |
baidu |
3,861,000.0 |
itpub.net |
2005-06-16 |
msn |
57,906.00 |
itpub.net |
2005-06-16 |
yisou |
180,648.00 |
itpub.net |
2005-06-17 |
baidu |
3,906,000.0 |
itpub.net |
2005-06-17 |
yisou |
178,585.00 |
itpub.net |
2005-06-18 |
baidu |
4,360,000.0 |
itpub.net |
2005-06-18 |
google |
1,040,000.0 |
itpub.net |
2005-06-18 |
yisou |
198,450.00 |
关于 小叮咚中文分词 .net版本发布的变化
现在几乎每天都有朋友给我写信,要求交流小叮咚中文分词的实现。我现在实现的有java和C#两个版本。同样的算法逻辑,用
java 和 C#写两边可不是有趣的事情 。于是自然而然想起了
关于lucene发展和多语言实现的方向
中采用的方法,于是决定以后主要更新java版本的中文分词算法,而.net版本的中文分词则在java class基础上转化过来。
很早的时候我的一篇blog介绍过:基于.NET的Java虚拟机IKVM介绍
。于是今天就尝试了一把,整个过程还算顺利。下面是我的转换过程:
X:\ikvmbin-0.14.0.1\ikvm\bin>ikvmc -target:library
X:\XXXX\chinese_sentence_splitter.jar
Note: output file is "chinese_sentence_splitter.dll"
Note: automatically adding reference to "e:\programming\java&.net\ikvmbin-0.14.0.1\ikvm\bin\ikvm.gnu.classpath.dll"
通过上面的命令可以把 java jar 文件转换成 同名的 .net dll。
在java中测试的结果如下:
但在.net中测试的结果却不正确:
这很显然是IKVM.NET在转换过程中出现了问题。
由于第一次使用IKVM.NET,因此这个问题还需要在以后有时间解决一下。也希望有相关经验的朋友多多指导.
相关连接:
多么乐
小叮咚中文分词
|