美团在Redis上踩过的一些坑（本人非美团）

标签：美团 redis 本人 | 发表时间：2015-11-04 10:26 | 作者：carlosfu

出处：http://www.iteye.com

上上周和同事参加了360组织的互联网技术训练营第三期，美团网的DBA负责人侯军伟给大家介绍了美团网在redis上踩得一些坑，讲的都是干货和坑。

我们在运维我们的redis私有云时，也遇到了一些类似的坑：

分为5个部分：

一、周期性出现connect timeout:

1. 背景：

大部分互联网公司都会有Mysql或者Oracle的DBA，但是在Nosql方面一般不会设置专门的DBA。不过对于一些知名的互联网公司来说，Nosql的使用量是巨大的，所以通常让Mysql的DBA或者单独聘请工程师来维护一些Nosql数据库，比如:

Redis, Hbase, Memcache(其实严格讲不是nosql), Mongodb, Cassandra。从讲座看美团网应该是有专职的Redis DBA。所以作为业务开发人员不需要自己安装、配置、运维Redis，只需要找Redis DBA来申请就可以了。

这里为了简化说明：Redis DBA提供的服务叫做Redis云，业务开发人员叫做业务端（redis的使用者）

2. 现象：

业务端在使用redis云提供的redis服务后，经常出现connect timeout：

redis.clients.jedis.exceptions.JedisConnectionException
java.net.SocketException
java.net.SocketTimeoutException:connect time out

3. 分析和怀疑：

业务端一般认为redis出现问题，就是redis云有问题，人的“正常”思维：看别人错误容易，发现自己难，扯多了, 出现这个有很多原因：

(1). 网络原因：比如是否存在跨机房、网络割接等等。

(2). 慢查询，因为redis是单线程，如果有慢查询的话，会阻塞住之后的操作。

(3). value值过大？比如value几十兆，当然这种情况比较少，其实也可以看做是慢查询的一种

(4). aof重写/rdb fork发生？瞬间会堵一下Redis服务器。

(5). 其他..................

4. 查询原因

演讲者一开始怀疑是网络问题，但是并未发现问题，观察各种对比图表，tcp listenOverFlow和timeout经常周期出现。（赞一下这个监控，我们监控现在还没有这个层面的）

有关listenOverFlow:

查看现有的连接数是否大于设置的backlog，如果大于就丢弃，并相应的参数值加1。其中backlog是由程序和系统参数net.core.somaxconn共同设置，当backlog的值大于系统设置的net.core.somaxconn时则取net.core.somaxconn的值，否则取程序设置的backlog值。这种出错的方式也被记录在TcpListenOverflows中（其只记录了连接个数不足而产生溢出错误的次数！）。

觉得可能和TCP相关，于是分析了Tcp三次握手：最后一次握手客户端的请求会进入服务器端的一个队列（可以认为是下三图）中，如果这个队列满了，就会发生上面的异常。(accept)

(1) TCP三次握手：

(2) redis客户端与redis服务器交互的过程（本质就是TCP请求）

(3) I/O 多路复用程序通过队列向文件事件分派器传送套接字的过程

(4) 和redis有什么关系呢?

由于Redis的单线程模型（对命令的处理和连接的处理都是在一个线程中），如果存在慢查询的话，会出现上面的这种情况，造成新的accept的连接进不了队列。

如果上面的图没法理解的话，看看这张图：

5. 解决方法：

(1) 对慢查询进行持久化，比如定时存放到mysql之类。（redis的慢查询只是一个list，超过list设置的最大值，会清除掉之前的数据，也就是看不到历史）

(2) 对慢查询进行报警（频率、数量、时间）等等因素

(3) 打屁股，哈哈：

(4) 其实应该做的是：对业务端进行培训，告诉他们一下redis开发的坑，redis不是万金油，这个和Mysql DBA要培训Mysql使用者一样，否则防不胜防。

比如他执行了 monitor, keys *, flushall, drop table, update table set a=1; 这种也是防不胜防的（当然也可以做限制），但是提高工程师的水平才是关键。

已有 0 人发表留言，猛击->> 这里<<-参与讨论

ITeye推荐

—软件人才免语言低担保赴美带薪读研！—

美团在Redis上踩过的一些坑（本人非美团）

- - 互联网 - ITeye博客

上上周和同事参加了360组织的互联网技术训练营第三期，美团网的DBA负责人侯军伟给大家介绍了美团网在redis上踩得一些坑，讲的都是干货和坑. 我们在运维我们的redis私有云时，也遇到了一些类似的坑：. 一、周期性出现connect timeout:. 大部分互联网公司都会有Mysql或者Oracle的DBA，但是在Nosql方面一般不会设置专门的DBA.

美团针对Redis Rehash机制的探索和实践

- - 美团点评技术团队

Squirrel（松鼠）是美团技术团队基于Redis Cluster打造的缓存系统. 经过不断的迭代研发，目前已形成一整套自动化运维体系：涵盖一键运维集群、细粒度的监控、支持自动扩缩容以及热点Key监控等完整的解决方案. 同时服务端通过Docker进行部署，最大程度的提高运维的灵活性. 分布式缓存Squirrel产品自2015年上线至今，已在美团内部广泛使用，存储容量超过60T，日均调用量也超过万亿次，逐步成为美团目前最主要的缓存系统之一.

美团二面：Redis与MySQL双写一致性如何保证？

- - 掘金后端本月最热

四月份的时候，有位朋友去美团面试，他说被问到Redis与MySQL双写一致性如何保证. 这道题其实就是在问缓存和数据库在双写场景下，一致性是如何保证的. 本文将跟大家一起来探讨如何回答这个问题. github地址，感谢每一颗star. 一致性就是数据保持一致，在分布式系统中，可以理解为多个节点中数据的值是一致的.

Redis 负载监控——redis-monitor

- - ITeye资讯频道

redis-monitor是一个Web可视化的 redis 监控程序. 使用 Flask 来开发的，代码结构非常简单，适合移植到公司内网使用. redis 服务器信息，包括 redis 版本、上线时间、 os 系统信息等等. 实时的消息处理信息，例如处理 command 数量、连接总数量等. 内存占用、 cpu 消耗实时动态图表.

Redis 起步

- - 博客园_首页

Rdis和JQuery一样是纯粹为应用而产生的，这里记录的是在CentOS 5.7上学习入门文章：. Redis是一个key-value存储系统. 和Memcached类似，但是解决了断电后数据完全丢失的情况，而且她支持更多无化的value类型，除了和string外，还支持lists（链表）、sets（集合）和zsets（有序集合）几种数据类型.

redis 配置

- - 谁主沉浮

# 当配置中需要配置内存大小时，可以使用 1k, 5GB, 4M 等类似的格式，其转换方式如下(不区分大小写). # 内存配置大小写是一样的.比如 1gb 1Gb 1GB 1gB. # daemonize no 默认情况下，redis不是在后台运行的，如果需要在后台运行，把该项的值更改为yes. # 当redis在后台运行的时候，Redis默认会把pid文件放在/var/run/redis.pid，你可以配置到其他地址.

Cassandra代替Redis?

- - Tim[后端技术]

最近用Cassandra的又逐渐多了，除了之前的360案例，在月初的QCon Shanghai 2013 篱笆网也介绍了其使用案例. 而这篇百万用户时尚分享网站feed系统扩展实践文章则提到了Fashiolista和Instagram从Redis迁移到Cassandra的案例. 考虑到到目前仍然有不少网友在讨论Redis的用法问题，Redis是一个数据库、内存、还是Key value store?以及Redis和memcache在实际场景的抉择问题，因此简单谈下相关区别.

redis 部署

- - CSDN博客云计算推荐文章

一、单机部署 tar xvf redis-2.6.16.tar.gz cd redis-2.6.16 make make PREFIX=/usr/local/redis install #指定安装目录为/usr/local/redis，默认安装安装到/usr/local/bin. # chkconfig: 2345 80 10 #添加redhat系列操作系统平台，开机启动需求项(运行级别，开机时服务启动顺序、关机时服务关闭顺序) # description: Starts, stops redis server.

nagios 监控redis

- - C1G军火库

下载check_redis.pl. OK: REDIS 2.6.12 on 192.168.0.130:6379 has 1 databases (db0) with 49801 keys, up 3 days 14 hours - connected_clients is 1, blocked_clients is 0 | connected_clients=1 blocked_clients=0.

转 redis vs memcached

- - 数据库 - ITeye博客

传统MySQL+ Memcached架构遇到的问题. 　　实际MySQL是适合进行海量数据存储的，通过Memcached将热点数据加载到cache，加速访问，很多公司都曾经使用过这样的架构，但随着业务数据量的不断增加，和访问量的持续增长，我们遇到了很多问题：. 　　1.MySQL需要不断进行拆库拆表，Memcached也需不断跟着扩容，扩容和维护工作占据大量开发时间.

美团在Redis上踩过的一些坑（本人非美团）

相关 [美团 redis 本人] 推荐：

美团在Redis上踩过的一些坑（本人非美团）

美团针对Redis Rehash机制的探索和实践

美团二面：Redis与MySQL双写一致性如何保证？

Redis 负载监控——redis-monitor

Redis 起步

redis 配置

Cassandra代替Redis?

redis 部署

nagios 监控redis

转 redis vs memcached

相关文章

订阅