ceph-记一次故障恢复过程

ceph故障恢复过程

今天下午接到业务部门通知,说openstack虚拟机无法访问,第一反应就是ceph出现故障,登陆到ceph控制节点,发现果然如此,120多个osd进程,down了将近一半。接下来的处理流程:

启动所有osd进程

登录到down的osd所在节点,通过执行systemctl start ceph-osd@id 来启动对应的osd进程

等待数据恢复。。。中间花费1个半小时。。。

处理down状态的pg

执行 ceph -s
发现有部分pgs提示是down+degraded
通过ceph health detail 可以看到后面该pg的的住osd编号
通过执行ceph osd tree 可以找到该osd进程所在的存储节点
登陆到该节点,重启当前osd进程(systemctl restart ceph-osd@id)
控制节点执行 ceph -s 可以看到down的pg数量会减1
ceph health detail 查看pgs状态稳定后,重复上述步骤即可

操作过程,我们需要:
安心、静心、耐心