neverend的日志

不记录,终将被遗忘。 一万年太久,只争朝夕。 他们用数字构建了整个世界。

  BlogJava :: 首页 :: 联系 :: 聚合  :: 管理
  62 Posts :: 1 Stories :: 17 Comments :: 0 Trackbacks

#

以root用户登录
1.下载并安装SVN服务
$  sudo apt-get install subversion
$  sudo apt-get install libapache2-svn

2.设置SVN用户组
$ sudo addgroup subversion
$ sudo usermod -G subversion -a root
注销后重新登录

3.创建SVN目录
$ sudo mkdir /home/svn
$ cd /home/svn
$ sudo mkdir labproject
$ sudo chown -R root:subversion labproject

4.创建 SVN 文件仓库:
$ sudo svnadmin create /home/svn/labproject
$ sudo chmod -R g+rws labproject

5. 通过自带协议访问 svnserve 服务器
 修改 /home/svn/labproject/conf/svnserve.conf 来配置其访问控制
 取消一下配置项的注释
 # [general]
 # password-db = passwd
 
 在password文件中编辑账号和密码,格式如下
 username=password
 注意,以上两步操作行前不要留任何空白字符

 运行svnserve服务
 sudo svnserve -d -r /home/svn/labproject
 配置完成。
 如果需要将svnserve设置成开机自动启动服务
 可在/etc/rc.loacl文件中添加:
 sudo svnserve -d -r /home/svn/labproject
 
 基本命令
 访问SVN仓库:
 $ svn co svn://hostname labproject --username user_name
 新增文件test.c
 $ svn add test.c
 将文件test.c提交到服务器
 $ svn commit -m "comment."
 更新文件仓库
 $ svn up

posted @ 2011-08-15 23:46 neverend 阅读(511) | 评论 (0)编辑 收藏

首先在Abode网站下载插件包。目前64位版在此处下载。我只接命令搞定:

然后如下


tar xvzf flashplayer10_2_p3_64bit_linux_111710.tar.gz

mkdir -p $HOME/.mozilla/plugins

mv libflashplayer.so $HOME/.mozilla/plugins/

最后,重启firefox既可。

posted @ 2011-08-09 21:50 neverend 阅读(643) | 评论 (0)编辑 收藏

最近写了些多线程的程序,用Thread.sleep()的时候有时会碰到InterruptedException。查了一些资料,下面是我自己的一些理解。

阻塞方法
一些多线程相关的方法是阻塞方法,比如Thread.sleep(), Thread.wait(), Thread.join()。

这些方法的执行通常需要比较长的时间来完成,当代码执行到阻塞方法时,一般要等待该方法返回后

才能继续往下执行,而InterruptedException提供了一种特殊的机制提前结束阻塞方法。

中断变量
每个线程都会维护一个bool变量,表示线程处于中断(true)或者非中断状态(false)。在线程初始的情况下中断变量为false。

这个变量的bool值可以通过Thread.isInterrupted()方法来读取,通过Thread.interrupted()方法来清除中断(即将中断变量置为false)。

线程中断
一个线程可以通过调用Thread.interrupt()方法来中断另外一个线程,具体过程如下:

1. 中断变量被设置为true。

2. 如果线程执行到了阻塞方法,那么该方法取消阻塞,并将中断变量重新置为false。
(这种机制是通过阻塞方法内部不断轮询中断变量的值来实现的)

例子:
 1 class ThreadTest implements Runnable {
 2 
 3     @Override
 4     public void run() {
 5                 System.out.println("before sleep");
 6             try {
 7                 Thread.sleep(5000);
 8             } catch (InterruptedException e) {
 9                                 System.out.println(Thread.currentThread().getName());
10                 Thread.currentThread().interrupt();
11                 System.out.println("after interrupt");
12             }        
13         System.out.println("after sleep");    
14         
15         try {
16             Thread.sleep(5000);
17         } catch (InterruptedException e) {
18             // TODO Auto-generated catch block
19             //e.printStackTrace();
20             System.out.println(Thread.currentThread().getName());
21             Thread.currentThread().interrupt();
22             System.out.println("after interrupt");
23         }
24         System.out.println("after sleep");    
25     }
26     
27 }
28 
29 public class ThreadBasic {
30     
31     public static void main(String[] args) {
32         
33         Thread t = new Thread(new ThreadTest(), "thread-1");
34         t.start();
35         
36         t.interrupt();
37         System.out.println(t.isInterrupted());
38     }
39 }






posted @ 2011-06-14 20:03 neverend 阅读(19782) | 评论 (1)编辑 收藏

术语说明:
QPS = req/sec = 请求数/秒

【QPS计算PV和机器的方式】

QPS统计方式 [一般使用 http_load 进行统计]
QPS = 总请求数 / ( 进程总数 *   请求时间 )
QPS: 单个进程每秒请求服务器的成功次数

单台服务器每天PV计算
公式1:每天总PV = QPS * 3600 * 6
公式2:每天总PV = QPS * 3600 * 8

服务器计算
服务器数量 =   ceil( 每天总PV / 单台服务器每天总PV )

【峰值QPS和机器计算公式】

原理:每天80%的访问集中在20%的时间里,这20%时间叫做峰值时间
公式:( 总PV数 * 80% ) / ( 每天秒数 * 20% ) = 峰值时间每秒请求数(QPS)
机器:峰值时间每秒QPS / 单台机器的QPS   = 需要的机器

问:每天300w PV 的在单台机器上,这台机器需要多少QPS?
答:( 3000000 * 0.8 ) / (86400 * 0.2 ) = 139 (QPS)

问:如果一台机器的QPS是58,需要几台机器来支持?
答:139 / 58 = 3



http://blog.hummingbird-one.com/?tag=web-%E6%80%A7%E8%83%BD-qps-%E7%AD%89%E5%BE%85%E6%97%B6%E9%97%B4

http://jjw.javaeye.com/blog/703864



posted @ 2011-01-25 17:13 neverend 阅读(22200) | 评论 (2)编辑 收藏

Windows提供了WNetAddConnection()函数来建立网络映射,NetUserAdd()函数来添加用户。这两个函数和在一起可以实现为远程主机添加用户的功能。但是,要真正实现远程添加用户的功能,需要在远程主机上做正确的配置。如果远程主机是Windows XP Pro,需要做如下配置:
1. 开启远程连接
我的电脑——>右键——>属性——>远程——>勾选“允许用户连接到此计算机”

2. 开启网络共享功能。
新建一个文件夹,右键——>共享——>创建共享。

3. 更改远程用户安全策略
管理工具——>本地安全策略——>安全选项——>网络访问:本地账户的共享和安全模式,双击,改为“经典——本地用户以自己的身份验证”

4.开启Telnet (不确定是否必要)
如果不做配置3,执行NetUserAdd()函数时,会报出访问权限不够的问题。因为默认的安全策略“仅来宾”是指不管网络登录的用户/密码参数拥有什么样的系统权限,登陆后一律赋予Guest用户的权限,以Guest账户添加一个Administrators组的账户时自然会出现权限不足的问题。而“经典”模式是指网络登录后的账户与输入的用户/密码参数的账户保持一致的权限,即如果输入管理员账号,登录后就拥有管理员组的权限;如果以Guest用户登录,登录后就拥有Guest账户的权限。

PS: Windows 2000的内置设置就是“经典”模式,所以不会出现上述问题。

参考资料:
http://hi.baidu.com/mofangzhe/blog/item/e5c05fedf39d62d1b21cb10d.html
http://www.sq01.cn/viewthread.php?tid=161

posted @ 2010-11-08 21:25 neverend 阅读(668) | 评论 (0)编辑 收藏

     摘要: Linux/BSD在/etc/shadow文件中存放加密过的密码,加密函数是crypt(),具体的源程序在glibc里面的crypt目录下。 crypt()函数最初使用DES算法加密密码明文,生成的密文格式是2个字符的salt和11个字符的DES输出; 后来又出现了使用MD5算法生成密文的crypt()函数,这种方式更加安全。 ReadHat命令行下使用authconfig-tu...  阅读全文
posted @ 2010-11-06 21:14 neverend 阅读(2004) | 评论 (0)编辑 收藏

服务器端 192.1.0.160
客户机端 192.1.0.221

一、在服务器端配置LDAP服务:
1.下载 openldap-2.4.11.tar.gz和db-4.7.25.tar.gz

2.安装BerkeleyDB
#rpm -qa|grep db
# tar xvf db
-4.7.25.tar.gz
# cd db_4.
7.25
# cd build_unix
/
# ..
/dist/configure -prefix=/usr/local/BerkeleyDB
# make
# make install

安装完成后执行
#cp /usr/local/BerkeleyDB/include/* /usr/include/
#cp /usr/local/BerkeleyDB/lib/* /usr/lib/
可避免如下错误:
checking   Berkeley   DB   version   for   BDB/HDB   backends...   no   
configure:   error:   BDB/HDB:   BerkeleyDB   version   incompatible

3.安装OpenLDAP
#gunzip -c openldap-2.4.15.tgz | tar xvfB -
#cd openldap
-2.4.15/
#.
/configure --prefix=/usr/local/openldap
#make depend
#make
#make install

4.启动LDAP服务
#cd /usr/local/openldap/libexec
#.
/slapd

5.测试LDAP服务是否正常启动
#ldapsearch --'' -s base '(objectclass=*)' namingContexts
返回
dn:

  namingContexts: dc=my-domain,dc=com
则说明正常启动

6.正常关闭LDAP服务
#kill -INT `cat /usr/local/openldap/var/run/slapd.pid`

7.日志配置
日志级别是累加的:296 = 256 日志连接/操作/结果 + 32 搜索过滤器处理 + 8 连接管理:
文件slapd.config中添加:
loglevel 296

日志信息会被记录到 syslogd LOG_LOCAL4 机制中。还需要将下面的内容添加到 /etc/syslog.conf 中:

local4.debug /var/log/slapd.log

重启syslog服务
service syslog restart

在/var/log/slapd.log中即可查看ldap的日志信息。
 
二、客户机端制作账号迁移脚本
IBM的《使用 OpenLDAP 集中管理用户帐号》指出RedHat Enterprise 版本会自带
openldap-server、openldap-client和一些账号移植的脚本
但是在内网160和我昨天在虚拟机上装的RedHat上却没有找到相关文件。
今天又在虚拟机上装了一个,发现默认安装并不包括这些,需要定制安装:

在光盘安装过程中有个界面让选择默认安装还是定制安装,选择“定制安装”,下一步,勾选如下软件包:

开发--开发库
openldap-devel-2.3.27
perl-ldap
perl-mozllla-ldap

服务器——网络服务器
openldap-servers-2.3.27

基本系统——系统工具
openldap-client-2.3.27

基本系统——老的软件支持
compat-db
compat-openldap

安装完成后,就可以找到移植脚本和LDAP的一些文件了。

迁移密码和 shadow 信息

Red Hat 所提供的 openldap-servers 包包含 PADL Software Pty Ltd. 公司的 MigrationTools 工具。我们将使用这些工具将数据从 Linux 系统文件(例如 /etc/group 和 /etc/password)转换成 LDAP LDIF 格式,这是数据库信息的一种文本格式的表示。这种格式是行界定、冒号分隔的属性-值对。

有一组 Perl 脚本被安装到 /usr/share/openldap/migration/ 中执行迁移。这些 Perl 脚本的配置信息包含在 migrate_common.ph 文件的开头。对于我们的目的来说,只需要修改命名前缀的变量来使用条目的识别名就足够了,如下所示:

$DEFAULT_BASE = "dc=mydomain,dc=com"

在进行这些修改之后,请运行脚本 migrate_base.pl,它会创建根项,并为 Hosts、Networks、Group 和 People 等创建低一级的组织单元:


 运行 migrate_base.pl
# ./migrate_base.pl > base.ldif
            

编辑 base.ldif,删除除下面之外的所有条目:


 base.ldif 条目
# cat base.ldif
            dn: dc=mydomain,dc=com
            dc: ibm
            objectClass: top
            objectClass: domain
            dn: ou=People,dc=ibm,dc=com
            ou: People
            objectClass: top
            objectClass: organizationalUnit
            dn: ou=Group,dc=ibm,dc=com
            ou: Group
            objectClass: top
            objectClass: organizationalUnit
            

在 LDAP 服务器上,使用 OpenLDAP 客户机工具 ldapadd 将以下条目插入到数据库中。简单身份验证必须要使用 -x 选项指定。在 slapd.conf 中定义的 rootdn 身份验证识别名是 “cn=Manager,dc=mydomain,dc=com”。对于简单身份验证来说,必须使用密码。选项 -W 强制提示输入密码。这个密码就是在 slapd.conf 文件中指定的 rootpw 参数的值。包含这些条目的 LDIF 文件是使用 -f 选项指定的:


 使用 ldapadd 插入条目
# ldapadd -x -D "cn=Manager,dc=mydomain,dc=com" -W -f base.ldif
            

接下来,从 /etc/group 中迁移 ldapuser 组:


 迁移 ldapuser 组
# grep ldapuser /etc/group > group.in
            # ./migrate_group.pl group.in > group.ldif
            #  cat group.ldif
            dn: cn=ldapuser,ou=Group,dc=mydomain,dc=com
            objectClass: posixGroup
            objectClass: top
            cn: ldapuser
            userPassword: {crypt}x
            gidNumber: 500
            # ldapadd -x -D "cn=Manager,dc=mydomain,dc=com" -W -f group.ldif
            

最后,从 /etc/passwd 和 /etc/shadow 中迁移 ldapuser 的信息:


 迁移 ldapuser 信息
# grep ldapuser /etc/passwd > passwd.in
            # ./migrate_passwd.pl passwd.in > passwd.ldif
            # cat passwd.ldif
            dn: uid=ldapuser,ou=People,dc=mydomain,dc=com
            uid: ldapuser
            cn: ldapuser
            objectClass: account
            objectClass: posixAccount
            objectClass: top
            objectClass: shadowAccount
            userPassword: {crypt$1$TeOlOcMc$cpQaa0WpLSFRC1HIHW5bt1
            shadowLastChange: 13048
            shadowMax: 99999
            shadowWarning: 7
            loginShell: /bin/bash
            uidNumber: 500
            gidNumber: 500
            homeDirectory: /home/ldapuser
            gecos: ldapuser
            # ldapadd -x -D "cn=Manager,dc=mydomain,dc=com" -W -f passwd.ldif
            

三、客户机端配置NSS&PAM
参考IBM《使用 OpenLDAP 集中管理用户帐号》 配置 LDAP 客户机部分
方法1 图形界面配置
authconfig-tui
方法2 修改配置文件
/etc/ldap.conf、/etc/nsswitch.conf、/etc/sysconfig/authconfig 和/etc/pam.d/system-auth
我的/etc/pam.d/system-auth的配置如下:

 

#%PAM-1.0
# This file is auto
-generated.
# User changes will be destroyed the next time authconfig is run.
auth        required      pam_env.so
auth        sufficient    pam_unix.so nullok try_first_pass
auth        requisite     pam_succeed_if.so uid 
>= 500 quiet
auth        sufficient    pam_ldap.so use_first_pass
auth        required      pam_deny.so

account     required      pam_unix.so broken_shadow
account     sufficient    pam_localuser.so
account     sufficient    pam_succeed_if.so uid 
< 500 quiet
account     [
default=bad success=ok user_unknown=ignore] pam_ldap.so
account     required      pam_permit.so

password    requisite     pam_cracklib.so try_first_pass retry
=3
password    sufficient    pam_unix.so md5 shadow nullok try_first_pass use_authtok
password    sufficient    pam_ldap.so use_authtok
password    required      pam_deny.so

session     optional      pam_keyinit.so revoke
session    required    pam_mkhomedir.so skel
=/etc/skel/ umask=0022
session     required      pam_limits.so
session     [success
=1 default=ignore] pam_succeed_if.so service in crond quiet use_uid
session     required      pam_unix.so
session     optional      pam_ldap.so

一点说明:pam_mkhomedir.so 负责用户初次登陆没有home目录时为其创建home目录。没有这项配置的话,新用户登陆可能会报/home目录找不到的错误。

问题:
SSL的配置
主从LDAP服务器的配置
日志级别的配置

PAM的作用究竟是什么?
身份鉴别到底是由系统完成的还是LDAP完成的?
资源和组织的信息如何组织?
授权是如何进行的?
posted @ 2010-11-02 22:49 neverend 阅读(1435) | 评论 (0)编辑 收藏

本文主要参考官方文档:http://www.openldap.org/doc/admin24/quickstart.html
和网上流传的教程:http://www.lifv.cn/?p=462

OpenLDAP下载地址:http://download.bergmans.us/openldap/openldap-2.2.29/openldap-2.2.29-db-4.3.29-openssl-0.9.8a-win32_Setup.exe 下载后点击安装即可。

配置sldap.conf :在安装目录下找到sldap.conf ,修改配置如下:
suffix "dc=example,dc=com" 
rootdn 
"cn=Manager,dc=example,dc=com" 
rootpw secret 

启动OpenLDAP:进入cmd命令行,跳转到OpenLDAP安装目录下,运行:
slapd -1
用可以看到控制台下打印一片信息,openldap 默认是用的 Berkeley DB 数据库存储目录数据的。

再开一个cmd,跳转到OpenLDAP安装目录下。

测试OpenLDAP是否正常启动:
ldapsearch --s base (objectclass=*) namingContexts
官方文档里,这一条命令加了些单引号,但带单引号的命令在Windows环境下跑不通。后面的命令也都避免
使用引号。
如果返回:
dn: 
namingContexts: dc
=example,dc=com
则说明OpenLDAP成功启动

增加一个条目:
1.做一个LDIF文件
2.使用ldapadd命令

1.在安装目录下,新建文件example.ldif,输入如下内容:
dn: dc=example,dc=com 
objectclass: dcObject 
objectclass: organization 
o: Example Company 
dc: example 

dn: cn
=Manager,dc=example,dc=com 
objectclass: organizationalRole 
cn: Manager
注意:在文档每一行的开头和结尾不要有空格,文档最后最好也别回车。建议不要拷贝,用手敲这几行。

2.cmd在安装目录下,运行:
ldapadd --D cn=Manager,dc=example,dc=com --f example.ldif

可能会要求输入密码:secret (配置文件里写的这个密码)

添加条目成功后,会有提示: adding new entry cn=Manager,dc=example,dc=com

简单查询:
ldapsearch --b dc=example,dc=com (objectclass=*)

查询成功后,会返回刚才插入的条目。

JNDI连接OpenLDAP
Java的JNDI接口很强大,可以连接LDAP服务。
import java.util.Hashtable;
import javax.naming.Context;
import javax.naming.NamingException;
import javax.naming.directory.DirContext;
import javax.naming.directory.InitialDirContext; 
public class TestOpenLDAP {

    
/**
     * 
@param args
     
*/
    
public static void main(String[] args) {
        
// TODO Auto-generated method stub
        TestOpenLDAP LDAPTest1 = new TestOpenLDAP();
        String root 
= "dc=example,dc=com"//root
        Hashtable env = new Hashtable();
        env.put(Context.INITIAL_CONTEXT_FACTORY, 
"com.sun.jndi.ldap.LdapCtxFactory" );
        env.put(Context.PROVIDER_URL, 
"ldap://localhost/" + root);
        env.put(Context.SECURITY_AUTHENTICATION, 
"simple" );
        env.put(Context.SECURITY_PRINCIPAL, 
"cn=Manager,dc=example,dc=com" );
        env.put(Context.SECURITY_CREDENTIALS, 
"secret" );
        DirContext ctx 
= null ;
        
try {
        ctx 
= new InitialDirContext(env);
        System.out.println( 
"认证成功" );
        }
        
catch (javax.naming.AuthenticationException e) {
        e.printStackTrace();
        System.out.println( 
"认证失败" );
        }
        
catch (Exception e) {
        System.out.println( 
"认证出错:" );
        e.printStackTrace();
        }
if (ctx != null ) {
        
try {
        ctx.close();
        }
        
catch (NamingException e) {
        
//ignore
        }
        }

    }

}

问题:
1. 图形化界面LDAPBrowser的配置
下载地址: http://files.blogjava.net/Unmi/LdapBrowser282.rar
解压后进入LdapBrowser282目录,打开配置文件OpenLdap_Localhost.cfg
修改配置:
basedn=dc=example,dc=com
managerdn
=cn=Manager,dc=example,dc=com
运行lbe.bat进入图形界面后选择连接OpenLdap_Localhost即可。

2. OpenLDAP的语法,内置ObjectClass

LDAP学习

entry(record,directory object)  条目 一条数据 相当于数据表的一条记录

entry由若干个attribute组成,objectclass是必须的attribute,用于描述entry的schema

attribute是name/value对形式,例如cn = liuxuanyu cn = mengke 一个name 可以对应多个值

container是一种特殊的entry,为数据的组织和管理提供一个继承体系结构,例如ou
任何entry都可以在特定的情况下变成container

与关系数据库的比较:
LDAP读操作性能高,写操作性能不如DB,DB 读写均可,读操作性能不如LDAP
数据结构不同
LDAP适合于存储继承结构的数据


namespace
DN (distinguish name) DN是entry的名字,entry的唯一标识
RDN (relative distinguish name) entry在某个容器范围内的标识
CN (common name) 常用名称 习惯上被用作RDN
DC (domain component) 域名

LDAP只允许树形结构

object identifier (OID) 例如:2.5.4.3 它是属性类型的标识符

schema
object class 定义了entry的类型
有三种类型的object Class: 抽象类、辅助类和结构化类。

构造schema的方式 :
1. 组合现有的object class
2. 扩展现有的object class 继承 使用辅助类(实际上是一种聚合关系)

The subschema publishes the schema to clients

inetOrgPerson is a contemporary definition for a person entry RFC 2798


3. JLDAP与JNDI的比较
 JLDAP是由novel开发的,原是针对Novel的NDS目录设计的JAVA访问工具。NOVEL的NDS和网景(NETSCAPE)的目录是工具界最早的目录产品。JLDAP并非JNDI的服务供应者,而是同一抽象层次下的访问工具集。与JNDI-LDAP相比,JLDAP更接近于类关系数据库的访问方式。

   NDS是遵守LDAP协议的并进行了扩展的类MAD产品。而NOVEL也已把JLDAP捐献给了OPENLDAP开源项目,可以世界范围内自由使用。与 JNDI相比,JLDAP无须继承DirContext才能实现添加,也无需预先生成添加的类,可以象普通数据访问那样,生成连接,然后使用::add方法添加。这样,添加的灵活性要强于JNDI。

但由于JLDAP目前是访问NDS,因此,它不具备JNDI完全面向对象存储的能力,对于高级的LDAP应用,JLDAP不是合适的选择。


4. OpenLDAP的深入管理
posted @ 2010-10-08 23:05 neverend 阅读(14344) | 评论 (5)编辑 收藏


2.1求8位二进制数中1的个数
解法1:直观法,每次除以2,计算余数为1的个数 O(log2v)
解法2:简单位操作,每次与0x01做与运算,再右移一位。O(log2v)
解法3:使用位操作v & (v-1) , 每次可减少二进制数字中的一个1。(若v & (v-1) == 0, 则v为2的方幂)
解法4:空间换时间,利用题目中字长8位的破绽,建立一个穷举数组。O(1)

知识点:位运算的性质
附:数组有2n+1个数,其中n个数成对出现,找出非成对出现的那个数。
数组所有元素做异或操作。

2.2
1.N!的末尾有多少个零
2.N!二进制表示中最低位1的位置

1.解法:质因数分解可知,0只有2*5可得,所以0的个数就是质因数分解中2的个数与5的个数的最小值,实际上就是
求5的个数Z。
Z= [N/5] + [N/5^2] +[N/5^3]+ ……
[N/5]表示不大于N的数中5的倍数贡献一个5
[N/5^2]表示不大于N的数中5^2再贡献一个5/。

2.解法:因为质因数分解中只有2是偶数,所以Z = [N/2] + [N/2^2] + [N/2^3] + …… +

2.3寻找多数元素问题
解法:减治:每次删除两个不同的ID,水王ID出现的次数仍旧会超过总数的一半。

2.4从1到N的所有数中“1”出现的个数
解法:寻找1出现的规律,比较复杂。

2.5寻找N个整数中最大的K个数
解法1:选择排序,选出最大的K个数。 O(n*k)
 一点改进:部分堆排序,先建堆,再排出最大的k个数即可。O(n)+O(logn*k)
解法2:分治,利用快速排序的划分思路。O(n*log2k)
解法3:二分搜索(与《编程珠玑》第二章问题A思路类似),有两种划分方式:
1.设已知N个数中最小值Vmin,最大值Vmax,对区间[Vmin, Vmax]做二分即可。
2.设N个整数是M位长的。从最高位开始,按bi位0、1二分。
此解法适用于大数据量的处理,不过要多次读写若干个临时文件。
解法4:建一个最小堆存储K个数,堆顶为堆中最小值。
对第k到N个数,若A[i]大于堆顶H[0],令H[0]=A[i],再调用shift-down过程调整堆。
此解法非常适合于N值很大的情况,复杂度为O(n * log2k)
解法5:空间换时间,用count[Vmax]计算每个数字出现的次数。
如果Vmax很大,将[0, Vmax]分成m个小块,再分别讨论即可。

2.7最大公约数问题
 用位运算求解
   位运算问题:
   1.求一个整数的二进制表示中1的个数
   2.逆转一个整数的二进制表示问题

2.9斐波那契数列
·递归 效率最低
·迭代 O(n)
·矩阵分治法

2.14子数组之和的最大值
分治
动态规划

2.15子矩阵之和的最大值
固定一维,另一维转化为子数组之和的最大值问题

2.16求数组中最长递增字符列的长度

解法1:动态规划

假设array[]的前i个元素中,最长递增子序列的长度为LIS[i],

则,LIS[i + 1] = max{1, LIS[k]+1}, array[i+1] > array[k], for any k<=i

int LIS(int[] array) {
int[] LIS = new int[array.length];
for (int i = 0 ; i < array.length; i++) {
    LIS[i] 
= 1;
    
for (int j = 0; j<i; j++) {
        
if (array[i] > array[j] && LIS[j] + 1 >LIS[i])
            LIS[i] 
= LIS[j] + ; 
    }

}

 

O(N^2)的时间复杂度

解法2:

MLIS[i]定义为前i个元素中,以array[i]为最大元素的最长递增子序列的长度。

可以证明,MLIS[i]的最大值也是最终的结果。

MaxV[i]保存长度为i的递增子序列最大元素的最小值。

解法2的程序更新MaxV的部分应该是有问题的,由此导致时间复杂度的分析错误,并且解法3也是错误的。


2.17数组循环移位

void rightshift(int *arr, int N, int k) {
    K 
%= N;
    Reverse(arr, 
0, N-k-1);
    Reverse(arr, N
-k, N-1);
    Reverse(arr, 
0, N-1);
}

 

数组问题思路:

排序思路

动态规划

看成一个数列或向量


2.18数组分割


3.1字符串移位包含的问题

给定两个字符串s1和s2,要求判定s2能否被s1做循环移位得到的字符串包含。例如:s1 = AABCD , s2 = CDAA,返回true. 给定s1 = ABCD 和 s2 = ACBD,返回false.

解法1:模拟字符串移位的过程,判断是否包含子串

解法2:判断s2是否为s1s1的子串即可。

解法3:不申请空间,模拟判断s2是否为s1s1子串的过程。

思路:字符串可以抽象成向量来考虑。


3.2电话号码对应英语单词

类似于求幂集问题

解法1:迭代,用while循环模拟

解法2:递归

 

3.3计算字符串相似度
递归求解

int calStrDis(char[] strA, int pABegin, int pAEnd, 
            
char[] strB, int pBBegin, int pBEnd) {
        
if (pABegin > pAEnd) {
            
if (pBBegin > pBEnd) {
                
return 0;
            } 
else {
                
return pBEnd - pBBegin + 1;
            }
        }
        
        
if (pBBegin > pBEnd) {
            
if (pABegin > pAEnd) {
                
return 0;
            } 
else {
                
return pAEnd - pABegin + 1;
            }
        }
        
        
if (strA[pABegin] == strB[pBBegin]) {
            
return calStrDis(strA, pABegin + 1, pAEnd, strB,
                    pBBegin 
+ 1, pBEnd);
        } 
else {
            
int t1 = calStrDis(strA, pABegin, pAEnd, strB, pBBegin + 1
                    pBEnd);
            
int t2 = calStrDis(strA, pABegin + 1, pAEnd, strB, pBBegin ,
                    pBEnd);
            
int t3 = calStrDis(strA, pABegin + 1, pAEnd, strB, pBBegin + 1 ,
                    pBEnd);
            
return min(t1, t2, t3) + 1;
        }
    }
递归优化,如何存储子问题的解?

3.4从无头链表中删除节点
这个问题很无耻

3.5最短摘要生成
有空再看

3.6编程判断两个链表是否相交
转化成链表是否有环的问题

3.7队列中取最大值操作
可分解为两个子问题
子问题1:设计一个堆栈,使入栈,出栈,取最大值的时间复杂度都是O(1)。
思路:用空间换时间,加一个数组link2NextMaxItem[],link2NextMaxItem[i]存储的是前i个元素中最大值的下标。

子问题2:用上述特性的两个堆栈实现一个队列
堆栈A负责入队,堆栈B负责出队。当堆栈B空的时候,将堆栈A中的数据全部弹出并压入堆栈B

3.8 求二叉树结点之间的最大距离
动态规划实现,还是不太懂。

3.9重建二叉树
递归求解

3.10分层遍历二叉树
队列遍历二叉树+变量标记层次

3.11程序改错
编写正确的二分搜索程序
C代码:

int BinSearch(SeqList * R, int n , KeyType K )//在有序表R[0..n-1]中进行二分查找,成功时返回结点的位置,失败时返回-1
int low=0,high=n-1,mid; //置当前查找区间上、下界的初值
  if(R[low].key==K)
  
{
  
return 0
 ;
  }

  
while(low<=high)//当前查找区间R[low..high]非空
  mid=low+((high-low)/2);//使用 (low + high) / 2 会有整数溢出的问题
  if(R[mid].key==K)
  
{
  
return mid; //查找成功返回

  }

  
if(R[mid].key>K)
  high
=mid-1//继续在R[low..mid-1]中查找

  else
  low
=mid+1; //继续在R[mid+1..high]中查找
  }

  
return -1; //当low>high时表示查找区间为空,查找失败
  }
 //BinSeareh


Java代码:

public static int binarySearch(int[] srcArray, int des)
  
{
  
int low = 0
;
  
int high = srcArray.length-1
;
  
while(low <= high) 
{
  
int middle = (low + high)/2
;
  
if(des == srcArray[middle]) 
{
  
return
 middle;
  }
else if(des <srcArray[middle]) {
  high 
= middle - 1
;
  }
else {
  low 
= middle + 1
;
  }

  }

  
return -1;
  }


4.8三角形测试用例
测试用例的三种类型:
正常输入 覆盖功能点
非法输入 值域错误 类型错误
边界值输入 0 1 MAX MIN 

posted @ 2010-09-29 11:10 neverend 阅读(1247) | 评论 (0)编辑 收藏

第1章 引言 随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式。水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了宕机造成的损失。通过负载均衡策略,有效的降低了单台机器的访问负载,降低了宕机的可能性;通过集群方案,解决了数据库宕机带来的单点数据库不能访问的问题;通过读写分离策略更是最大限度了提高了应用中读取(Read)数据的速度和并发量。目前国内的大型互联网应用中,大量的采用了这样的数据切分方案,Taobao,Alibaba,Tencent,它们大都实现了自己的分布式数据访问层(DDAL)。以实现方式和实现的层次来划分,大概分为两个层次(Java应用为例):JDBC层的封装,ORM框架层的实现。就JDBC层的直接封装而言,现在国内发展较好的一个项目是被称作“变形虫”(Amoeba)的项目,由阿里集团的研究院开发,现在仍然处于测试阶段(beta版),其运行效率和生产时效性有待考究。就ORM框架层的实现而言,比如Taobao的基于ibatis和Spring的的分布式数据访问层,已有多年的应用,运行效率和生产实效性得到了开发人员和用户的肯定。本文就是以ORM框架层为基础而实现的分布式数据访问层。本课题的难点在于分库后,路由规则的制定和选择以及后期的扩展性,比如:如何做到用最少的数据迁移量,达到扩充数据库容量(增加机器节点)的目的。核心问题将围绕数据库分库分表的路由规则和负载均衡策略展开。 第2章 基本原理和概念 2.1基本原理: 人类认知问题的过程总是这样的:what(什么)-?why(为什么)-?how(怎么 做),接下来,本文将就这三个问题展开讨论和研究: 2.1.1什么是数据切分 "Shard" 这个词英文的意思是"碎片",而作为数据库相关的技术用语,似乎最早见于大型多人在线角色扮演游戏中。"Sharding" 姑且称之为"分片"。Sharding 不是一门新技术,而是一个相对简朴的软件理念。众所周知,MySQL 5 之后才有了数据表分区功能,那么在此之前,很多 MySQL 的潜在用户都对 MySQL 的扩展性有所顾虑,而是否具备分区功能就成了衡量一个数据库可扩展性与否的一个关键指标(当然不是唯一指标)。数据库扩展性是一个永恒的话题,MySQL 的推广者经常会被问到:如在单一数据库上处理应用数据捉襟见肘而需要进行分区化之类的处理,是如何办到的呢? 答案是:Sharding。 Sharding 不是一个某个特定数据库软件附属的功能,而是在具体技术细节之上的抽象处理,是水平扩展(Scale Out,亦或横向扩展、向外扩展)的解决方案,其主要目的是为突破单节点数据库服务器的 I/O 能力限制,解决数据库扩展性问题。 通过一系列的切分规则将数据水平分布到不同的DB或table中,在通过相应的DB路由 或者 table路由规则找到需要查询的具体的DB或者table,以进行Query操作。这里所说的“sharding”通常是指“水平切分”, 这也是本文讨论的重点。具体将有什么样的切分方式呢和路由方式呢?行文至此,读者难免有所疑问,接下来举个简单的例子:我们针对一个Blog应用中的日志来说明,比如日志文章(article)表有如下字段: 面对这样的一个表,我们怎样切分呢?怎样将这样的数据分布到不同的数据库中的表中去呢?其实分析blog的应用,我们不难得出这样的结论:blog的应用中,用户分为两种:浏览者和blog的主人。浏览者浏览某个blog,实际上是在一个特定的用户的blog下进行浏览的,而blog的主人管理自己的blog,也同样是在特定的用户blog下进行操作的(在自己的空间下)。所谓的特定的用户,用数据库的字段表示就是“user_id”。就是这个“user_id”,它就是我们需要的分库的依据和规则的基础。我们可以这样做,将user_id为 1~10000的所有的文章信息放入DB1中的article表中,将user_id为10001~20000的所有文章信息放入DB2中的 article表中,以此类推,一直到DBn。 这样一来,文章数据就很自然的被分到了各个数据库中,达到了数据切分的目的。接下来要解决的问题就是怎样找到具体的数据库呢?其实问题也是简单明显的,既然分库的时候我们用到了区分字段user_id,那么很自然,数据库路由的过程当然还是少不了 user_id的。考虑一下我们刚才呈现的blog应用,不管是访问别人的blog还是管理自己的blog,总之我都要知道这个blog的用户是谁吧,也就是我们知道了这个blog的user_id,就利用这个user_id,利用分库时候的规则,反过来定位具体的数据库,比如user_id是234,利用该才的规则,就应该定位到DB1,假如user_id是12343,利用该才的规则,就应该定位到DB2。以此类推,利用分库的规则,反向的路由到具体的DB,这个过程我们称之为“DB路由”。 当然考虑到数据切分的DB设计必然是非常规,不正统的DB设计。那么什么样的DB设计是正统的DB设计呢? 我们平常规规矩矩用的基本都是。平常我们会自觉的按照范式来设计我们的数据库,负载高点可能考虑使用相关的Replication机制来提高读写的吞吐和性能,这可能已经可以满足很多需求,但这套机制自身的缺陷还是比较显而易见的(下文会提及)。上面提到的“自觉的按照范式设计”。考虑到数据切分的DB设计,将违背这个通常的规矩和约束,为了切分,我们不得不在数据库的表中出现冗余字段,用作区分字段或者叫做分库的标记字段,比如上面的article的例子中的user_id这样的字段(当然,刚才的例子并没有很好的体现出user_id的冗余性,因为user_id这个字段即使就是不分库,也是要出现的,算是我们捡了便宜吧)。当然冗余字段的出现并不只是在分库的场景下才出现的,在很多大型应用中,冗余也是必须的,这个涉及到高效DB的设计,本文不再赘述。 2.1.2为什么要数据切分 上面对什么是数据切分做了个概要的描述和解释,读者可能会疑问,为什么需要数据切分呢?像 Oracle这样成熟稳定的数据库,足以支撑海量数据的存储与查询了?为什么还需要数据切片呢?的确,Oracle的DB确实很成熟很稳定,但是高昂的使用费用和高端的硬件支撑不是每一个公司能支付的起的。试想一下一年几千万的使用费用和动辄上千万元的小型机作为硬件支撑,这是一般公司能支付的起的吗?即使就是能支付的起,假如有更好的方案,有更廉价且水平扩展性能更好的方案,我们为什么不选择呢? 但是,事情总是不尽人意。平常我们会自觉的按照范式来设计我们的数据库,负载高点可能考虑使用相关的Replication机制来提高读写的吞吐和性能,这可能已经可以满足很多需求,但这套机制自身的缺陷还是比较显而易见的。首先它的有效很依赖于读操作的比例,Master往往会成为瓶颈所在,写操作需要顺序排队来执行,过载的话Master首先扛不住,Slaves的数据同步的延迟也可能比较大,而且会大大耗费CPU的计算能力,因为write操作在Master上执行以后还是需要在每台slave机器上都跑一次。这时候 Sharding可能会成为鸡肋了。 Replication搞不定,那么为什么Sharding可以工作呢?道理很简单,因为它可以很好的扩展。我们知道每台机器无论配置多么好它都有自身的物理上限,所以当我们应用已经能触及或远远超出单台机器的某个上限的时候,我们惟有寻找别的机器的帮助或者继续升级的我们的硬件,但常见的方案还是横向扩展, 通过添加更多的机器来共同承担压力。我们还得考虑当我们的业务逻辑不断增长,我们的机器能不能通过线性增长就能满足需求?Sharding可以轻松的将计算,存储,I/O并行分发到多台机器上,这样可以充分利用多台机器各种处理能力,同时可以避免单点失败,提供系统的可用性,进行很好的错误隔离。 综合以上因素,数据切分是很有必要的,且我们在此讨论的数据切分也是将MySql作为背景的。基于成本的考虑,很多公司也选择了Free且Open的MySql。对MySql有所了解的开发人员可能会知道,MySQL 5 之后才有了数据表分区功能,那么在此之前,很多 MySQL 的潜在用户都对 MySQL 的扩展性有所顾虑,而是否具备分区功能就成了衡量一个数据库可扩展性与否的一个关键指标(当然不是唯一指标)。数据库扩展性是一个永恒的话题,MySQL 的推广者经常会被问到:如在单一数据库上处理应用数据捉襟见肘而需要进行分区化之类的处理,是如何办到的呢? 答案也是Sharding,也就是我们所说的数据切分方案。 我们用免费的MySQL和廉价的Server甚至是PC做集群,达到小型机+大型商业DB的效果,减少大量的资金投入,降低运营成本,何乐而不为呢?所以,我们选择Sharding,拥抱Sharding。 2.1.3怎么做到数据切分 说到数据切分,再次我们讲对数据切分的方法和形式进行比较详细的阐述和说明。 数据切分可以是物理 上的,对数据通过一系列的切分规则将数据分布到不同的DB服务器上,通过路由规则路由访问特定的数据库,这样一来每次访问面对的就不是单台服务器了,而是N台服务器,这样就可以降低单台机器的负载压力。 数 据切分也可以是数据库内的 ,对数据通过一系列的切分规则,将数据分布到一个数据库的不同表中,比如将article分为article_001,article_002等子表,若干个子表水平拼合有组成了逻辑上一个完整的article表,这样做的目的其实也是很简单的。 举个例子说明,比如article表中现在有5000w条数据,此时我们需要在这个表中增加(insert)一条新的数据,insert完毕后,数据库会针对这张表重新建立索引,5000w行数据建立索引的系统开销还是不容忽视的。但是反过来,假如我们将这个表分成100 个table呢,从article_001一直到article_100,5000w行数据平均下来,每个子表里边就只有50万行数据,这时候我们向一张只有50w行数据的table中insert数据后建立索引的时间就会呈数量级的下降,极大了提高了DB的运行时效率,提高了DB的并发量。当然分表的好处还不知这些,还有诸如写操作的锁操作等,都会带来很多显然的好处。 综上,分库降低了单点机器的负载;分表,提高了数据操作的效率,尤其是Write操作的效率。 行文至此我们依然没有涉及到如何切分的问题。接下来,我们将对切分规则进行详尽的阐述和说明。 上文中提到,要想做到数据的水平切分,在每一个表中都要有相冗余字符 作为切分依据和标记字段,通常的应用中我们选用user_id作为区分字段,基于此就有如下三种分库的方式和规则: (当然还可以有其他的方式) 按号段分: (1) user_id为区分,1~1000的对应DB1,1001~2000的对应DB2,以此类推; 优点:可部分迁移 缺点:数据分布不均 (2)hash取模分: 对user_id进行hash(或者如果user_id是数值型的话直接使用user_id 的值也可),然后用一个特定的数字,比如应用中需要将一个数据库切分成4个数据库的话,我们就用4这个数字对user_id的hash值进行取模运算,也就是user_id%4,这样的话每次运算就有四种可能:结果为1的时候对应DB1;结果为2的时候对应DB2;结果为3的时候对应DB3;结果为0的时候对应DB4,这样一来就非常均匀的将数据分配到4个DB中。 优点:数据分布均匀 缺点:数据迁移的时候麻烦,不能按照机器性能分摊数据 (3)在认证库中保存数据库配置 就是建立一个DB,这个DB单独保存user_id到DB的映射关系,每次访问数据库的时候都要先查询一次这个数据库,以得到具体的DB信息,然后才能进行我们需要的查询操作。 优点:灵活性强,一对一关系 缺点:每次查询之前都要多一次查询,性能大打折扣 以上就是通常的开发中我们选择的三种方式,有些复杂的项目中可能会混合使用这三种方式。 通过上面的描述,我们对分库的规则也有了简单的认识和了解。当然还会有更好更完善的分库方式,还需要我们不断的探索和发现。 第3章 本课题研究的基本轮廓 上面的文字,我们按照人类认知事物的规律,what?why?how这样的方式阐述了数据库切分的一些概念和意义以及对一些常规的切分规则做了概要的介绍。本课题所讨论的分布数据层并不仅仅如此,它是一个完整的数据层解决方案,它到底是什么样的呢?接下来的文字,我将详细阐述本研究课题的完整思想和实现方式。 分布式数据方案提供功能如下: (1)提供分库规则和路由规则(RouteRule简称RR),将上面的说明中提到的三中切分规则直接内嵌入本系统,具体的嵌入方式在接下来的内容中进行详细的说明和论述; (2)引入集群(Group)的概念,保证数据的高可用性; (3)引入负载均衡策略(LoadBalancePolicy简称LB); (4)引入集群节点可用性探测机制,对单点机器的可用性进行定时的侦测,以保证LB策略的正确实施,以确保系统的高度稳定性; (5)引入读/写分离,提高数据的查询速度; 仅仅是分库分表的数据层设计也是不够完善的,当某个节点上的DB服务器出现了宕机的情况的时候,会是什么样的呢?是的,我们采用了数据库切分方案,也就是说有N太机器组成了一个完整的DB ,如果有一台机器宕机的话,也仅仅是一个DB的N分之一的数据不能访问而已,这是我们能接受的,起码比切分之前的情况好很多了,总不至于整个DB都不能访问。一般的应用中,这样的机器故障导致的数据无法访问是可以接受的,假设我们的系统是一个高并发的电子商务网站呢?单节点机器宕机带来的经济损失是非常严重的。也就是说,现在我们这样的方案还是存在问题的,容错性能是经不起考验的。当然了,问题总是有解决方案的。我们引入集群的概念,在此我称之为Group,也就是每一个分库的节点我们引入多台机器,每台机器保存的数据是一样的,一般情况下这多台机器分摊负载,当出现宕机情况,负载均衡器将分配负载给这台宕机的机器。这样一来, 就解决了容错性的问题。所以我们引入了集群的概念,并将其内嵌入我们的框架中,成为框架的一部分。 如上图所示,整个数据层有Group1,Group2,Group3三个集群组成,这三个集群就是数据水平切分的结果,当然这三个集群也就组成了一个包含完整数据的DB。每一个Group包括1个Master(当然Master也可以是多个)和 N个Slave,这些Master和Slave的数据是一致的。比如Group1中的一个slave发生了宕机现象,那么还有两个slave是可以用的,这样的模型总是不会造成某部分数据不能访问的问题,除非整个 Group里的机器全部宕掉,但是考虑到这样的事情发生的概率非常小(除非是断电了,否则不易发生吧)。 在没有引入集群以前,我们的一次查询的过程大致如下:请求数据层,并传递必要的分库区分字段(通常情况下是user_id)?数据层根据区分字段Route到具体的DB?在这个确定的DB内进行数据操作。 这是没有引入集群的情况,当时引入集群会是什么样子的呢?看图一即可得知,我们的路由器上规则和策略其实只能路由到具体的Group,也就是只能路由到一个虚拟的Group,这个Group并不是某个特定的物理服务器。接下来需要做的工作就是找到具体的物理的DB服务器,以进行具体的数据操作。基于这个环节的需求,我们引入了负载均衡器的概念(LB)。负载均衡器的职责就是定位到一台具体的DB服务器。具体的规则如下:负载均衡器会分析当前sql的读写特性,如果是写操作或者是要求实时性很强的操作的话,直接将查询负载分到Master,如果是读操作则通过负载均衡策略分配一个Slave。我们的负载均衡器的主要研究放向也就是负载分发策略,通常情况下负载均衡包括随机负载均衡和加权负载均衡 。 随机负载均衡很好理解,就是从N个Slave中随机选取一个Slave。这样的随机负载均衡是不考虑机器性能的,它默认为每台机器的性能是一样的。假如真实的情况是这样的,这样做也是无可厚非的。假如实际情况并非如此呢?每个Slave的机器物理性能和配置不一样的情况,再使用随机的不考虑性能的负载均衡,是非常不科学的,这样一来会给机器性能差的机器带来不必要的高负载,甚至带来宕机的危险, 同时高性能的数据库服务器也不能充分发挥其物理性能。基于此考虑从,我们引入了加权负载均衡,也就是在我们的系统内部通过一定的接口,可以给每台DB服务器分配一个权值,然后再运行时LB根据权值在集群中的比重,分配一定比例的负载给该DB服务器。当然这样的概念的引入,无疑增大了系统的复杂性和可维护性。有得必有失,我们也没有办法逃过的。 有了分库,有了集群,有了负载均衡器,是不是就万事大吉了呢? 事情远没有我们想象的那么简单。虽然有了这些东西,基本上能保证我们的数据层可以承受很大的压力 ,但是这样的设计并不能完全规避数据库宕机的危害。假如Group1中的slave2 宕机了,那么系统的LB并不能得知,这样的话其实是很危险的,因为LB不知道,它还会以为slave2为可用状态,所以还是会给slave2分配负载。这样一来,问题就出来了,客户端很自然的就会发生数据操作失败的错误或者异常。这样是非常不友好的!怎样解决这样的问题呢? 我们引入集群节点的可用性探测机制 ,或者是可用性的数据推送机制 。这两种机制有什么不同呢?首先说探测机制吧,顾名思义,探测即使,就是我的数据层客户端,不定时对集群中各个数据库进行可用性的尝试,实现原理就是尝试性链接,或者数据库端口的尝试性访问,都可以做到,当然也可以用JDBC尝试性链接,利用Java的Exception机制进行可用性的判断,具体的会在后面的文字中提到。那数据推送机制又是什么呢?其实这个就要放在现实的应用场景中来讨论这个问题了,一般情况下应用的DB 数据库宕机的话我相信DBA肯定是知道的,这个时候DBA手动的将数据库的当前状态通过程序的方式推送到客户端,也就是分布式数据层的应用端,这个时候在更新一个本地的DB状态的列表。并告知LB,这个数据库节点不能使用,请不要给它分配负载。一个是主动的监听机制,一个是被动的被告知的机制。两者各有所长。但是都可以达到同样的效果。这样一来刚才假设的问题就不会发生了,即使就是发生了,那么发生的概率也会降到最低。 上面的文字中提到的Master和Slave ,我们并没有做太多深入的讲解。如图一所示,一个Group由1个Master和N个Slave组成。为什么这么做呢?其中Master负责写操作的负载,也就是说一切写的操作都在Master上进行,而读的操作则分摊到Slave上进行。这样一来的可以大大提高读取的效率。在一般的互联网应用中,经过一些数据调查得出结论,读/写的比例大概在 10:1左右 ,也就是说大量的数据操作是集中在读的操作,这也就是为什么我们会有多个Slave的原因。但是为什么要分离读和写呢?熟悉DB的研发人员都知道,写操作涉及到锁的问题,不管是行锁还是表锁还是块锁,都是比较降低系统执行效率的事情。我们这样的分离是把写操作集中在一个节点上,而读操作其其他的N个节点上进行,从另一个方面有效的提高了读的效率,保证了系统的高可用性。读写分离也会引入新的问题,比如我的Master上的数据怎样和集群中其他的Slave机器保持数据的同步和一致呢?这个是我们不需要过多的关注的问题,MySql的Proxy机制可以帮助我们做到这点,由于Proxy机制与本课题相关性不是太强, 在这里不做详细介绍。 综上所述,本课题中所研究的分布式数据层的大体功能就是如此。以上是对基本原理的一些讨论和阐述。接下来就系统设计层面,进行深入的剖析和研究。 第4章 系统设计 4.1系统实现层面的选择 在引言部分中提到,该系统的实现层面有两种选择,一种是基于JDBC层面上的选择,一种是基于现有数据持久层框架层面上的选择,比如Hibernate,ibatis。两种层面各有长处,也各有不足之处。基于JDBC层面上的系统实现,系统开发难度和后期的使用难度都将大大提高。大大增加了系统的开发费用和维护费用。本课题的定位是在成型的ibatis持久层框架的基础上进行上层的封装,而不是对ibatis源码的直接修改,这样一来使本系统不会对现有框架有太多的侵入性,从而也增加了使用的灵活性。之所以选择ibatis,原因如下: (1)ibatis的学习成本非常低,熟练的Java Programmer可在非常的短时间内熟练使用ibatis; (2)ibatis是轻量级的ORM,只是简单的完成了RO,OR的映射,其查询语句也是通过配置文件sql-map.xml文件在原生sql的层面进行简单的配置,也就是说我们没有引入诸如Hibernate那样的HQL的概念,从而增强了 sql的可控性,优秀的DBA可以很好的从sql的层面对sql进行优化,使数据层的应用有很强的可控性。Hibernate虽然很强大,但是由于 Hibernate是OR的一个重型封装,且引入HQL的概念,不便于DBA团队对sql语句的控制和性能的调优。 基于以上两点理由,本课题在ORM的产品的选择上选择了易学易用且轻量级的持久层框架ibatis。下面的讨论也都是特定于ibatis的基础上的讨论。 4.2其他开源框架的选择 在一些大型的Java应用中,我们通常会采用Spring这样的开源框架,尤其是 IoC(DI)这部分,有效的帮助开发人员管理对象的依赖关系和层次,降低系统各层次之间的实体耦合。Spring的优点和用处我相信这是开发人员众所周知的,在此不再赘述。本课题的数据层也将采用Spring做为IoC(DI)的框架。 4.3系统开发技术和工具介绍 开发语言:Java JDK1.5 集成开发环境:Eclipse 3.3.4 Web环境下测试服务器:JBoss 4.2 构建工具:淘宝自行研发的构建工具Antx(类似于Maven),当然也可以用Maven 依赖的开源Jar:Spring2.0,ibaits,commons-configuration(读取配置文件),log4j,junit等 第5章 系统分析(待续。。) 阅读全文
类别:默认分类 查看评论
posted @ 2010-09-29 10:55 neverend 阅读(166) | 评论 (0)编辑 收藏

仅列出标题
共3页: 上一页 1 2 3 下一页