放翁(文初)的一亩三分地

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  210 随笔 :: 1 文章 :: 320 评论 :: 0 Trackbacks
 

       集团内部很多团队都使用Memcache来提高应用性能,最近的一次工作汇报中提及了MemcacheHash算法需要研究来满足一些需求,同时提高Memcache的利用效率。讨论了一下最后自己总结了这么几点是对Hash算法需要着重考虑的。

问题:

1.       存储数据如何均匀分散。如何把数据尽可能的散开存储,这样对于Memcache的可扩展性才会有充分利用,试想如果算法每次都会把数据定向到某几台机器,那么就会导致集群机器之间利用率的不均衡,无法发挥出集群效应。

2.       增减机器减小对原有数据存取的影响。由于业务量的增长势必需要对后端的服务器有所扩容,但是增加或者减少机器如何尽可能小的影响已有的缓存数据,这点直接影响业务处理以及应用的效率。

3.       提高Memcache效率。Memcache在压力测试下也会暴露出对于网络资源的消耗问题,毕竟也是网络间的Socket数据交互。

解决的一些思路和方法:

1.       Consistent Hashing是一种比较好的解决思路。可以参看一下:http://tech.idv2.com/2008/07/24/memcached-004/ 其中主要两个亮点就是稀释节点以及环状分区段管理。稀释节点就是将原来的节点再复制几十倍,使得离散度更高,数据更加分散。环状分区段管理,就能够将数据分区管理,在加入和减少节点时对数据产生影响最低,最好的类比就是解放前的地下工作者单线联系,如果被捕不会涉及到所有的地下党同志。

2.       集群的机器使用Memcache最好结合本地Cache,这里我们自己写了一个本地的类似于Memcache有超时时间Cache,两者结合一起使用缓存信息,在压力测试下提高了20%左右的性能。这里和我们的系统也有关系,我们对于Memcache有比较大的依赖,虽然已经对于每一个请求处理都防止重复获取信息,将必要信息放在线程上下文中,但是在运行期间还是会有不少的请求。

存储到Memcache中的数据类型:

1. 一次写入多次读,很少更新。这种数据系统启动以后构建,在非命中情况下不采用从后备数据源中获取数据来填充Memcache。(也是提高效率,同时防止一些攻击性的请求)

2. 多次写入多次读取。这类数据往往是在运行期被构建,非命中下会从后备数据源中获取,或者是某一种计算结果的缓存。

对于第一类数据来说,增加机器需要重新构建,如果采用分区分段,那么只需要构建某一部分的数据,或者是移动数据。对于第二类数据,增加机器如果采用简单的Hash算法也问题不大,最多存储多份,命中率降低,但是如果采用分区,也可以降低命中率下降的情况。

       这里只是抛出问题,后续如何解决请各位看官各抒己见了。当然这里自己也会考虑这方面的实现和设计。
posted on 2008-08-14 10:36 岑文初 阅读(3424) 评论(1)  编辑  收藏

评论

# re: Memcache Hash算法值得探索的内容 2008-08-14 14:22 小高
关注一下  回复  更多评论
  


只有注册用户登录后才能发表评论。


网站导航: