随笔 - 10, 文章 - 0, 评论 - 2, 引用 - 0
数据加载中……

2005年10月12日

tss中文:开源面向对象的数据库db4o 5.5版发布了

 tss中文:开源面向对象的数据库db4o 5.5版发布了

近日db4objects发布了开源面向对象数据库 db4o 5.5 版本. 这个版本的焦点是提高了性能降低了内存耗用,特别针对资源紧张的嵌入式开发提供了支持。

具体的改进特性:
- 类索引使用新BTree架构,极大减少了事务提交的时间,对象个数在10万之1千万的索引时表现极为明显。
-通过更好的群集插槽方式,改进字符串和数组的序列化方式,在插入和修改时提高了效率。

-提供了诊断工具包,帮助程序员更容易开发出高效程序。

-本次改进效率的提升可以让内存耗用更低。


伴随着 这次发布,db4objects 还提供了用户交流社区:
这里 。  

原文: db4o open source object database v 5.5 released

posted @ 2006-08-21 18:25 我要去桂林 阅读(239) | 评论 (0)编辑 收藏

一种面向搜索引擎的网页分块、切片的原理,实现和演示

一种面向搜索引擎的网页分块、切片的原理,实现和演示



最近看到 2005 年的 全国搜索引擎和网上信息挖掘学术研讨会 上 华南木棉信息检索的队长 欧健文 的 华南木棉信息检索 的ppt。很有启发。

于是自己也根据自己的理解准备做一个实现。
实现前提假设:
    1、网页分块切分的基本单位是html中的table , div 等标签(目前版本只支持:table ,div 标签)。
    2、网页分块切片识别依赖于相似url的对比。比如:我们认为一下两个url的网页html文本结构相似:
        http://news.soufun.com/2005-11-26/580107.htm
        http://news.soufun.com/2005-11-26/580175.htm
       而下面两个url的网页结构不相似:
        http://news.soufun.com/subject/weekly051121/index.html
        http://news.soufun.com/2005-11-26/580175.htm

用途:
    1、根据分析网页结构区分网页是 主题型网页 还是 目录型网页;
    2、根据分析网页结构 找出 网页的 主题内容,相关内容和噪音内容;

实现的3个阶段:
    1、对网页结构进行合理切片;
    2、比较相似网页的切片结构;
    3、分析切片数据,得出结论。
演示地址:
       http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp


posted @ 2005-11-28 10:17 我要去桂林 阅读(646) | 评论 (0)编辑 收藏

一种快速的未登陆词识别方法(原理和实现)

一种快速的未登陆词识别方法(原理和实现)
   
    最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放.
    但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉.

    算法的假设:
    1. 未登陆词是由单字组成的;
    2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词;

    测试文章:
    最近电视剧大长今很火,我就选取了介绍大长今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    识别结果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        长今,职场,闵政浩,韩剧,郑云白,连生,主簿,冷庙高香,义字,医女,张德,剩者,济州,选拨,文秘

    算法原理:
    首先找出已经分词后的单字,然后查看单字的下一个是否还是单字,如果是,判断这种情况出现的次数,如果超过预订的阀值,那么就确认这是一个新词.
    下面是一个算法的计算过程展示:
    PDH : initialize phrase dictionary
    QuerySpliter reInitialize dictionary.
    >>>8,9;9,10
    长今
    >>>237,238;238,239
    职场
    >>>595,596;596,597;597,598
    闵政浩
    >>>189,190;190,191
    韩剧
    >>>1111,1112;1112,1113;1113,1114
    郑云白
    >>>599,600;600,601
    连生
    >>>610,611;611,612
    主簿
    >>>975,976;976,977;977,978;978,979
    冷庙高香
    >>>1233,1234;1234,1235
    义字
    >>>559,560;560,561
    医女
    >>>561,562;562,563
    张德
    >>>3114,3115;3115,3116
    剩者
    >>>534,535;535,536
    济州
    >>>580,581;581,582
    选拨
    >>>2071,2072;2072,2073
    文秘
    本算法是在:小叮咚分词的基础上进行的.
    欢迎大家一起交流,改进这个算法.
       
    相关连接:
             
基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
                       小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题
                       Lucene使用者沙龙

     原帖地址



posted @ 2005-10-12 16:16 我要去桂林 阅读(738) | 评论 (0)编辑 收藏