摘要: 最近一直想写个和搜索相关的东东,所以简单了解搜索引擎方面的知识,个人总结一个垂直搜索引擎 包含以下几个部分:
1 web 爬虫,抓取目标页面的内容。
2 数据预处理,把抓取下来的数据进行去噪,例如使用htmlparser等工具对去掉无用的标签数据等等,把
数据结构化DB或者其他存储系统已被后面使用。
3. 建立索引。
4. 分词,开发检索因子, 对索引数据进行检索。
5. 把检索到的数据,在web段展现。
下面就结合heritrix1.14.3 和lucence2.2.0,介绍下,整个搜索引擎的开发过程。
阅读全文
posted @
2009-06-26 02:35 邓兵野 阅读(3870) |
评论 (2) |
编辑 收藏
摘要: Keytool是一个Java数据证书的管理工具。
keystore
Keytool将密钥(key)和证书(certificates)存在一个称为keystore的文件中
在keystore里,包含两种数据:
密钥实体(Key entity)——密钥(secret key)又或者是私钥和配对公钥(采用非对称加密)
可信任的证书实体(trusted certificate entries)——只包含公钥
阅读全文
posted @
2008-06-28 16:53 邓兵野 阅读(506) |
评论 (0) |
编辑 收藏
摘要: 目前,我们使用的CAS Server 3.1.1的是基于Spring Framework编写的,因此在CAS服务器端的配置管理中,绝大多数是Spring式的Java Bean XML配置。CAS 的服务器提供了一套易于定制的用户认证器接口,用户可以根据自身企业的在线系统的认证方式,来定制自己的认证逻辑。不论是传统的用户名/密码方式,还是基于安全证书的方式;是基于关系数据库的存储,还是采用LDAP服务器,CAS Server给我们提供了这些常用的验证器模板代码,只要稍作修改,便可灵活使用了。
阅读全文
posted @
2008-06-28 16:51 邓兵野 阅读(629) |
评论 (0) |
编辑 收藏
摘要: 简单的说,CAS(Central Authentication Service – 中心认证服务)的目的就是使分布在一个企业内部各个不同异构系统的认证工作集中在一起,通过一个公用的认证系统统一管理和验证用户的身份。在CAS上认证的用户将获得CAS颁发的一个证书,使用这个证书,用户可以在承认CAS证书的各个系统上自由穿梭访问,不需要再次的登录认证。打个比方:对于加入欧盟的国家而言,在他们国家中的公民可以凭借着自己的身份证,在整个欧洲旅行,不用签证。对于企业内部系统而言,CAS就是这个颁发欧盟认证的系统,其它系统都是加入欧盟的国家,它们要共同遵守和承认CAS的认证规则。
阅读全文
posted @
2008-06-28 16:49 邓兵野 阅读(602) |
评论 (0) |
编辑 收藏
摘要: STEP 1,搭建Java Web服务器环境
安装 JDK + Tomcat 6.0.14 , HTTP端口8080 , HTTPS端口8443
JAVA_HOME = D:\Java\jdk1.6.0_04
CATALINA_HOME = D:\Java\apache-tomcat-6.0.14
安装完毕,启动Tomcat ,在浏览器上 测试 http://Linly:8080/
阅读全文
posted @
2008-06-28 16:47 邓兵野 阅读(1714) |
评论 (2) |
编辑 收藏
摘要: 一个事件其实在页面上 有多个元素相应事件处理,点击页面上的一个button,会发生什么?其实 是相当于先后点击了按钮,它的容器,及这个页面.也就是说没一个元素都按照特定的顺序响应那个事件.事件的发生顺序在IE和mozilla在事件支持上的主要差别.
阅读全文
posted @
2006-11-30 17:59 邓兵野 阅读(1732) |
评论 (1) |
编辑 收藏
摘要: javascript是基于对象的语言,但是如何构造对象一直困扰着我,现在有了一点体会,分享一点经验给大家
本文介绍javascript构造对象的几种方法:工厂方法,prototype方法,构造函数方法.
阅读全文
posted @
2006-11-27 17:26 邓兵野 阅读(10863) |
评论 (3) |
编辑 收藏
摘要: javascript的继承机制并不是明确规定的,而是通过模仿实现的,意味着继承不是由解释程序处理,开发者有权决定最适合的继承方式. 下面我给出几种常用的方法
阅读全文
posted @
2006-11-27 15:09 邓兵野 阅读(1905) |
评论 (1) |
编辑 收藏