事故记录: 阿里云突然IO爆满导致服务器进不去

JerryZhang 2016/05/02

7月10日 凌晨 6:48 分,两台阿里云 ECS 同时出现高 IO ,导致所有服务器暂停,ssh 连接失败只能重启服务器。

两台 ECS 没任何交互,向阿里云提工单说明情况,回复是: 您的ECS云服务器我们观察在IOPS跑高的时间段内观察到CPU也存在一定波动,见附件。 针对该情况,建议您可以确认下您服务器中是否记录有out of memory类型的日志记录。同时如果您的服务器中部署有针对各个进程内存使用的记录,可以对这些记录日志进行分析获取是哪些进程占用较高的内存资源

猜测可能是 python-mysqldb 使用不当: 当连接超时,没有关闭前一个连接,直接重新打开一个连接使用,时间长了以后引发 uwsgi 内存泄露。这个理由有些牵强,但是找不到更合适的理由了。按照猜想在每次新建连接的时候,先关闭前一个连接。

到目前为止,问题尚未浮现,至于就是我们自身的问题,还是阿里云服务器自己的问题,搞不清楚。


07/17 日早晨问题再次复现,系统日志显示 cron can not fork,怀疑是内存不足导致的,升级内存配置,以观后效。