ceph-记一次故障恢复过程

ceph故障恢复过程

今天下午接到业务部门通知，说openstack虚拟机无法访问，第一反应就是ceph出现故障，登陆到ceph控制节点，发现果然如此，120多个osd进程，down了将近一半。接下来的处理流程：

启动所有osd进程

登录到down的osd所在节点，通过执行systemctl start ceph-osd@id 来启动对应的osd进程

等待数据恢复。。。中间花费1个半小时。。。

处理down状态的pg

执行 ceph -s
发现有部分pgs提示是down+degraded
通过ceph health detail 可以看到后面该pg的的住osd编号
通过执行ceph osd tree 可以找到该osd进程所在的存储节点
登陆到该节点，重启当前osd进程(systemctl restart ceph-osd@id)
控制节点执行 ceph -s 可以看到down的pg数量会减1
ceph health detail 查看pgs状态稳定后，重复上述步骤即可

操作过程，我们需要：
安心、静心、耐心