应对Memcached缓存失效，导致高并发查询DB的几种思路

标签： 技术架构 Memcached | 发表时间：2016-04-16 11:07 | 作者：liuchi1993

出处：http://www.importnew.com

最近看到nginx的合并回源，这个和下面的思路有点像。不过nginx的思路还是在控制缓存失效时的并发请求，而不是当缓存快要失效时，及时地更新缓存。

nginx合并回源，参考：http://blog.csdn.net/brainkick/article/details/8570698

update: 2015-04-23

======================

当Memcached缓存失效时，容易出现高并发的查询DB，导致DB压力骤然上升。

这篇blog主要是探讨 如何在缓存将要失效时，及时地更新缓存，而不是如何在缓存失效之后，如何防止高并发的DB查询。

个人认为，当缓存将要失效时，及时地把新的数据刷到memcached里，这个是解决缓存失效瞬间高并发查DB的最好方法。那么如何及时地知道缓存将要失效？

解决这个问题有几种思路：

比如一个key是aaa，失效时间是30s。

1.定期从DB里查询数据，再刷到memcached里

这种方法有个缺点是，有些业务的key可能是变化的，不确定的。

而且不好界定哪些数据是应该查询出来放到缓存中的，难以区分冷热数据。

2.当缓存取到为null时，加锁去查询DB，只允许一个线程去查询DB

这种方式不太靠谱，不多讨论。而且如果是多个web服务器的话，还是有可能有并发的操作。

3.在向memcached写入value时，同时写入当前机器在时间作为过期时间

当get得到数据时，如果当前时间 – 过期时间 > 5s，则后台启动一个任务去查询DB，更新缓存。

当然，这里的后台任务必须保证同一个key，只有一个线程在执行查询DB的任务，不然这个还是高并发查询DB。

缺点是要把过期时间和value合在一起序列化，取出数据后，还要反序列化。很不方便。

网上大部分文章提到的都是前面两种方式，有少数文章提到第3种方式。下面提出一种基于两个key的方法：

4.两个key，一个key用来存放数据，另一个用来标记失效时间

比如key是aaa，设置失效时间为30s，则另一个key为expire_aaa，失效时间为25s。

在取数据时，用multiget，同时取出aaa和expire_aaa，如果expire_aaa的value == null，则后台启动一个任务去查询DB，更新缓存。和上面类似。

对于后台启动一个任务去查询DB，更新缓存，要保证一个key只有一个线程在执行，这个如何实现？

对于同一个进程，简单加锁即可。拿到锁的就去更新DB，没拿到锁的直接返回。

对于集群式的部署的，如何实现只允许一个任务执行？

这里就要用到memcached的add命令了。

add命令是如果不存在key，则设置成功，返回true，如果已存在key，则不存储，返回false。

当get expired_aaa是null时，则add expired_aaa 过期时间由自己灵活处理。比如设置为3秒。

如果成功了，再去查询DB，查到数据后，再set expired_aaa为25秒。set aaa 为30秒。

综上所述，来梳理下流程：

比如一个key是aaa，失效时间是30s。查询DB在1s内。

put数据时，设置aaa过期时间30s，设置expire_aaa过期时间25s；
get数据时，multiget aaa 和 expire_aaa，如果expired_aaa对应的value != null，则直接返回aaa对应的数据给用户。如果expire_aaa返回value == null，则后台启动一个任务，尝试add expire_aaa，并设置超时过间为3s。这里设置为3s是为了防止后台任务失败或者阻塞，如果这个任务执行失败，那么3秒后，如果有另外的用户访问，那么可以再次尝试查询DB。如果add执行成功，则查询DB，再更新aaa的缓存，并设置expire_aaa的超时时间为25s。

5. 时间存到Value里，再结合add命令来保证只有一个线程去刷新数据

update:2014-06-29

最近重新思考了下这个问题。发现第4种两个key的办法比较耗memcached的内存，因为key数翻倍了。结合第3种方式，重新设计了下，思路如下：

仍然使用两个key的方案：

key

__load_{key}

其中， __load_{key} 这个key相当于一个锁，只允许add成功的线程去更新数据，而 这个key的超时时间是比较短的，不会一直占用memcached的内存。

在set 到Memcached的value中，加上一个时间，(time, value)，time是memcached上的key未来会过期的时间，并不是当前系统时间。
当get到数据时，检查时间是否快要超时： time – now < 5 * 1000，假定设置了快要超时的时间是5秒。

* 如果是，则后台启动一个新的线程：
* 尝试 add __load_{key}，
* 如果成功，则去加载新的数据，并set到memcached中。

* 原来的线程直接返回value给调用者。

按上面的思路，用xmemcached封装了下：

DataLoader，用户要实现的加载数据的回调接口：

public interface DataLoader {
	public <T> T load();
}

RefreshCacheManager，用户只需要关心这这两个接口函数：

public class RefreshCacheManager {
	static public <T> T tryGet(MemcachedClient memcachedClient, final String key, final int expire, final DataLoader dataLoader);
	static public <T> T autoRetryGet(MemcachedClient memcachedClient, final String key, final int expire, final DataLoader dataLoader);
}

其中autoRetryGet函数如果get到是null，内部会自动重试4次，每次间隔500ms。

RefreshCacheManager内部自动处理数据快过期，重新刷新到memcached的逻辑。

详细的封装代码在这里： https://gist.github.com/hengyunabc/cc57478bfcb4cd0553c2

总结：

我个人是倾向于第5种方式的，因为很简单，直观。 比第4种方式要节省内存，而且不用mget，在使用memcached集群时不用担心出麻烦事。

这种两个key的方式，还有一个好处，就是数据是自然冷热适应的。如果是冷数据，30秒都没有人访问，那么数据会过期。

如果是热门数据，一直有大流量访问，那么数据就是一直热的，而且数据一直不会过期。

应对Memcached缓存失效，导致高并发查询DB的几种思路

- - ImportNew

最近看到nginx的合并回源，这个和下面的思路有点像. 不过nginx的思路还是在控制缓存失效时的并发请求，而不是当缓存快要失效时，及时地更新缓存. nginx合并回源，参考：http://blog.csdn.net/brainkick/article/details/8570698. 当Memcached缓存失效时，容易出现高并发的查询DB，导致DB压力骤然上升.

分布式缓存-Memcached

- - 人月神话的BLOG

分布式缓存出于如下考虑，首先是缓存本身的水平线性扩展问题，其次是缓存大并发下的本身的性能问题，再次避免缓存的单点故障问题(多副本和副本一致性). 分布式缓存的核心技术包括首先是内存本身的管理问题，包括了内存的分配，管理和回收机制. 其次是分布式管理和分布式算法，其次是缓存键值管理和路由. 原文： http://wenku.baidu.com/view/8686d46c7e21af45b307a8c3.html.

java使用memcached缓存

- - Linux - 操作系统 - ITeye博客

服务器端安装,部署,启动:. 用于监听的UNIX套接字路径（禁用网络支持） -a . UNIX套接字访问掩码，八进制数字（默认：0700） -m 指定最大使用内存大小（默认64MB）. -t 线程数（默认4） -l 绑定地址 (默认:所有都允许,无论内外网或者本机更换IP，有安全隐患，若设置为127.0.0.1就只能本机访问) -d start 启动memcached服务.

Reddit如何使用Memcached来存储3TB的缓存数据

- - IT瘾-tuicool

Reddit是著名的社交新闻网站，光是在2012年，它的独立访客就达到了4000万，页面浏览量达到了370亿次. 几年过去了，网站用户有增无减，而随着用户的增多，网站的响应速度却一直在改进. 这要得益于Reddit使用了大量的缓存. 而随着网站规模不断增长，缓存数量也随着增加，那么Reddit是如何做到在增大缓存规模的同时又能保证它们的响应速度的.

读取memcached和redis中的数据，分析缓存数据大小

- - BlogJava-首页技术区

最近项目快要见人了，所以很多性能分析的需求又提出来了. 之前已经做过几次类似的事情，这次记录下来把. Memcached不能一次性读取所有的key，不能一次性读取缓存数据. 以前项目里面踩过这个坑，stats cachedump $slabId $limit只会dump出2M的key，如果所有的key超多2M那么dump出哪些key就要看命了.

memcached+magent实现memcached集群

- - 编程语言 - ITeye博客

首先说明下memcached存在如下问题. 　　本身没有内置分布式功能，无法实现使用多台Memcache服务器来存储不同的数据，最大程度的使用相同的资源；无法同步数据，容易造成单点故障. （memagent代理实现集群）. 在 Memcached中可以保存的item数据量是没有限制的，只要内存足够.

缓存相关——缓存穿透、缓存并发、缓存失效、缓存预热、缓存雪崩、缓存算法

- - 编程语言 - ITeye博客

我们在项目中使用缓存通常都是先检查缓存中是否存在，如果存在直接返回缓存内容，如果不存在就直接查询数据库然后再缓存查询结果返回. 这个时候如果我们查询的某一个数据在缓存中一直不存在，就会造成每一次请求都查询DB，这样缓存就失去了意义，在流量大时，可能DB就挂掉了. 要是有人利用不存在的key频繁攻击我们的应用，这就是漏洞.

MemCached详解

- - CSDN博客推荐文章

首先，我们来了解一下MemCached与MemCache之间的区别：. Memcache是一个自由和开放源代码、高性能、分配的内存对象缓存系统. 用于加速动态web应用程序，减轻数据库负载. 它可以应对任意多个连接，使用非阻塞的网络IO. 由于它的工作机制是在内存中开辟一块空间，然后建立一个HashTable，Memcached自管理这些HashTable.

Memcached调优

- - 四火的唠叨

文章系本人原创，转载请保持完整性并注明出自《四火的唠叨》. 项目中有一个对实时响应性比较高的服务，引入了Memcached以减少延迟和减少数据库压力. 但是期间遇到了一些问题，这里记录一些调优细节. 最开始我使用的是 Memcached Java Client，但是最后放弃了，放弃原因包括：.

memcached协议

- - 开源软件 - ITeye博客

旧版： http://code.sixapart.com/svn/memcached/trunk/server/doc/protocol.txt. 新版： https://github.com/memcached/memcached/blob/master/doc/protocol.txt.

应对Memcached缓存失效，导致高并发查询DB的几种思路

1.定期从DB里查询数据，再刷到memcached里

2.当缓存取到为null时，加锁去查询DB，只允许一个线程去查询DB

3.在向memcached写入value时，同时写入当前机器在时间作为过期时间

4.两个key，一个key用来存放数据，另一个用来标记失效时间

5. 时间存到Value里，再结合add命令来保证只有一个线程去刷新数据

总结：

相关文章

相关 [memcached 缓存并发] 推荐：

应对Memcached缓存失效，导致高并发查询DB的几种思路

分布式缓存-Memcached

java使用memcached缓存

Reddit如何使用Memcached来存储3TB的缓存数据

读取memcached和redis中的数据，分析缓存数据大小

memcached+magent实现memcached集群

缓存相关——缓存穿透、缓存并发、缓存失效、缓存预热、缓存雪崩、缓存算法

MemCached详解

Memcached调优

memcached协议

相关文章

订阅

应对Memcached缓存失效，导致高并发查询DB的几种思路

1.定期从DB里查询数据，再刷到memcached里

2.当缓存取到为null时，加锁去查询DB，只允许一个线程去查询DB

3.在向memcached写入value时，同时写入当前机器在时间作为过期时间

4.两个key，一个key用来存放数据，另一个用来标记失效时间

5. 时间存到Value里，再结合add命令来保证只有一个线程去刷新数据

总结：

相关文章

相关 [memcached 缓存 并发] 推荐：

相关文章

订阅

相关 [memcached 缓存并发] 推荐：