放翁（文初）的一亩三分地

BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合

:: 管理 ::

210 随笔 :: 1 文章 :: 320 评论 :: 0 Trackbacks

Memcache Hash算法值得探索的内容

集团内部很多团队都使用Memcache来提高应用性能，最近的一次工作汇报中提及了Memcache的Hash算法需要研究来满足一些需求，同时提高Memcache的利用效率。讨论了一下最后自己总结了这么几点是对Hash算法需要着重考虑的。

问题：

1. 存储数据如何均匀分散。如何把数据尽可能的散开存储，这样对于Memcache的可扩展性才会有充分利用，试想如果算法每次都会把数据定向到某几台机器，那么就会导致集群机器之间利用率的不均衡，无法发挥出集群效应。

2. 增减机器减小对原有数据存取的影响。由于业务量的增长势必需要对后端的服务器有所扩容，但是增加或者减少机器如何尽可能小的影响已有的缓存数据，这点直接影响业务处理以及应用的效率。

3. 提高Memcache效率。Memcache在压力测试下也会暴露出对于网络资源的消耗问题，毕竟也是网络间的Socket数据交互。

解决的一些思路和方法：

1． Consistent Hashing是一种比较好的解决思路。可以参看一下：http://tech.idv2.com/2008/07/24/memcached-004/ 其中主要两个亮点就是稀释节点以及环状分区段管理。稀释节点就是将原来的节点再复制几十倍，使得离散度更高，数据更加分散。环状分区段管理，就能够将数据分区管理，在加入和减少节点时对数据产生影响最低，最好的类比就是解放前的地下工作者单线联系，如果被捕不会涉及到所有的地下党同志。

2．集群的机器使用Memcache最好结合本地Cache，这里我们自己写了一个本地的类似于Memcache有超时时间Cache，两者结合一起使用缓存信息，在压力测试下提高了20%左右的性能。这里和我们的系统也有关系，我们对于Memcache有比较大的依赖，虽然已经对于每一个请求处理都防止重复获取信息，将必要信息放在线程上下文中，但是在运行期间还是会有不少的请求。

存储到Memcache中的数据类型：

1．一次写入多次读，很少更新。这种数据系统启动以后构建，在非命中情况下不采用从后备数据源中获取数据来填充Memcache。（也是提高效率，同时防止一些攻击性的请求）

2．多次写入多次读取。这类数据往往是在运行期被构建，非命中下会从后备数据源中获取，或者是某一种计算结果的缓存。

对于第一类数据来说，增加机器需要重新构建，如果采用分区分段，那么只需要构建某一部分的数据，或者是移动数据。对于第二类数据，增加机器如果采用简单的Hash算法也问题不大，最多存储多份，命中率降低，但是如果采用分区，也可以降低命中率下降的情况。

这里只是抛出问题，后续如何解决请各位看官各抒己见了。当然这里自己也会考虑这方面的实现和设计。

posted on 2008-08-14 10:36 岑文初阅读(3434) 评论(1) 编辑收藏

# re: Memcache Hash算法值得探索的内容 2008-08-14 14:22 小高

关注一下回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

放翁（文初）的一亩三分地

常用链接

留言簿(34)

随笔档案

淘宝同学的blog

搜索

最新评论

阅读排行榜

评论排行榜

评论