Merge pull request #34 from caoxianfei1/main

add admin guide for curvebs and curvefs
opencurve · Nov 22, 2023 · c6454f9 · c6454f9
2 parents 3643d2e + 5e29a74
commit c6454f9
Show file tree

Hide file tree

Showing 44 changed files with 4,302 additions and 52 deletions.
diff --git a/docs/02-CurveBS/07-maintenance/02-administrator-guide.md b/docs/02-CurveBS/07-maintenance/02-administrator-guide.md
diff --git a/...veBS/07-maintenance/02-administrator-guide/01-curvebs-controlpanel-start-mds.md b/...veBS/07-maintenance/02-administrator-guide/01-curvebs-controlpanel-start-mds.md
@@ -0,0 +1,71 @@
+# Curve 启动mds
+
+1. 适用环境:
+2. 版本号: v1.2.6+
+3. CurveAdm版本：v0.2.0+
+4. 最后更新日期: 2023/09/30
+5. 层面: 管控面
+6. 运维级别: P1
+7. 所属产品: 存储
+8. 需求明细: 节点名称，具体的mds服务
+9. 验收标准: 该指定的mds服务启动成功，集群健康
+10. 参考步骤:
+
+```plaintext
+1. 查看集群服务状态和指定节点的mds状态：
+   $ curveadm status
+   
+   注：如果指定的mds已经处于运行状态（Status为Up状态），则不用再次启动。
+   
+2. 如果处于Exit状态的话，则使用下述命令启动服务：
+
+   如果是启动某一个指定的mds，使用--id选项:
+   $ curveadm start --id <Id>
+   
+   如果要启动某一个节点上所有mds服务，使用如下命令：
+   $ curveadm start --host <host> --role mds
+   
+   如果要启动所有的mds，使用如下命令：
+   $ curveadm start --role mds
+   
+3. 再次查看集群服务状态，查看指定mds服务是否启动成功（Status为Up状态）：
+   $ curveadm status
+   
+4. 使用工具查看集群状态是否健康：
+   $ curve bs status cluster
+   结果输出有下面字样则集群健康：Cluster health is:  ok
+```
+
+11. 参考影响:
+
+* 时间: 无
+
+* 业务方: 无
+
+* 影响主题: 无
+
+* 用户：无
+
+12. 参考风险:
+
+* 数据面: 无
+
+* 管控面: 无
+
+* 恢复能力: 无需恢复
+
+13. 参考回滚策略: 停止mds
+
+14. 需求发起方: CURVE
+
+15. 接收方:
+
+16. 评审责任人: SRE负责人，SA负责人，CURVE负责人
+
+17. 用户通知责任人: 技术支持
+
+18. 执行责任人: CURVE/SA
+
+19. 测试回归责任人: CURVE
+
+20. 执行审核责任人: SA/CURVE/SRE
diff --git a/...rveBS/07-maintenance/02-administrator-guide/02-curvebs-controlpanel-stop-mds.md b/...rveBS/07-maintenance/02-administrator-guide/02-curvebs-controlpanel-stop-mds.md
@@ -0,0 +1,97 @@
+# Curve 停止mds
+
+1. 适用环境: 
+2. 版本号: v1.2.6+
+3. CurveAdm版本：v0.2.0+
+4. 最后更新日期: 2023/09/30
+5. 层面: 管控面
+6. 运维级别: P1
+7. 所属产品: 存储
+8. 需求明细: 具体节点，具体的mds服务
+9. 验收标准: 该节点的mds服务停止成功，并且集群健康
+10. 参考步骤:
+
+```plaintext
+1. 查看集群服务状态和指定节点的mds状态：
+   $ curveadm status
+   
+   注：如果指定的mds已经处于退出状态（Status为Exited状态），则不用重复操作。
+   
+2. 如果处于Up状态，则使用下述命令停止服务，
+
+   如果是停止某个指定的mds，使用--id选项:
+   $ curveadm stop --id <Id>
+   
+   如果要停止某个节点上的所有的mds服务，使用如下命令：
+   $ curveadm stop --host <host> --role mds
+   
+   如果要停止集群中所有的mds服务，使用如下命令：（一般不会进行操作）
+   注意：如果停止所有的mds，则导致集群不可用，请在进行下列操作前仔细确认是否要停掉所有的mds服务
+   $ curveadm stop --role mds
+   
+3. 再次查看集群服务状态，查看指定mds服务是否已经退出（Status为Exited状态）：
+   $ curveadm status
+   
+4. 使用工具使用查看当前集群状态：
+   $ curve bs status cluster
+   
+   当停止部分mds服务后，上述命令输出提示集群处于warn状态 Cluster health is： warn，符合预期。
+   如果停止部分mds服务后，上述命令输出提示集群处于error状态 Cluster health is： error，则表示集群出错，需要重新拉起刚才停掉的mds。
+   （一般不会做此操作）停掉所有的mds服务，集群应该处于error状态 Cluster health is： error。
+```
+
+11. 参考影响:
+
+* 情况1：停止部分mds
+
+  * 时间: 无
+
+  * 业务方: 无
+
+  * 影响主题: 无
+
+  * 用户：无
+
+* 情况2：停掉所有的mds服务
+
+  * 时间：直至有mds服务启动之前，集群不可用
+
+  * 业务方：所有使用当前集群的业务方
+
+  * 影响主题：mds挂掉
+
+  * 用户：所有使用当前集群的用户
+
+12. 参考风险:
+
+* 情况1：停止部分mds服务
+
+  * 数据面: 无
+
+  * 管控面: 无
+
+  * 恢复能力: 无需恢复
+
+* 情况2：停掉所有mds服务
+
+  * 数据面: IO暂停
+
+  * 管控面: 管控面服务不可用
+
+  * 恢复能力: 无需恢复
+
+13. 参考回滚策略: 重新拉起mds
+
+14. 需求发起方: CURVE
+
+15. 接收方:
+
+16. 评审责任人: SRE负责人，SA负责人，CURVE负责人
+
+17. 用户通知责任人: 技术支持
+
+18. 执行责任人: CURVE/SA
+
+19. 测试回归责任人: CURVE
+
+20. 执行审核责任人: SA/CURVE/SRE
diff --git a/...BS/07-maintenance/02-administrator-guide/03-curvebs-controlpanel-restart-mds.md b/...BS/07-maintenance/02-administrator-guide/03-curvebs-controlpanel-restart-mds.md
@@ -0,0 +1,105 @@
+# Curve 重启mds
+
+1. 适用环境:
+2. 版本号: v1.2.6+
+3. CurveAdm版本：v0.2.0+
+4. 最后更新日期: 2023/09/30
+5. 层面: 管控面
+6. 运维级别: P1
+7. 所属产品: 存储
+8. 需求明细: 节点名称，具体的mds服务
+9. 验收标准: 指定的mds服重启成功，集群健康，并且可以正常对外提供服务
+10. 参考步骤:
+
+```plaintext
+1. 使用工具查看集群是否健康，当前mds是否异常：
+   $ curve bs status cluster
+   结果输出有下面字样则集群健康：Cluster health is:  ok
+   
+   注：1. 集群健康（ok）：如果集群健康，继续执行后续步骤。重启当前服务后需确保集群仍是健康状态。
+      2. 集群异常（warn/error）：
+         使用工具查看是否是mds异常：
+         $ curve bs status mds
+         2.1 如果是当前要重启的服务导致的异常（warn/error）并希望重启恢复，则继续执行后续步骤。但重启之后不能保证集群是健康状态。
+         2.2 如果当前要重启的服务正常，其他的服务异常导致的集群不健康，则继续执行后续步骤。但是重启当前服务后集群仍然处于不健康状态。
+      
+2. 使用如下命令重启mds服务：
+
+   如果是重启某个指定的mds服务，使用--id选项：
+   $ curveadm restart --id <Id>
+   
+   如果要重启某个节点下的所有的mds服务，使用如下命令：
+   $ curveadm restart --host <host> --role mds
+   
+   （一般不会做此操作）如果要重启集群中所有的mds服务，使用如下命令：
+   注意：如果重启所有的mds，则导致集群短暂不可用，在重启期间所有IO出错，请谨慎进行下列操作。
+   $ curveadm restart --role mds
+   
+3. 再次查看集群服务状态，查看指定mds服务是否重启成功：
+   $ curveadm status
+   
+4. 查看集群是否健康：
+   $ curve bs status cluster
+   结果输出有下面字样则集群健康：Cluster health is:  ok
+
+   注：如果集群在重启之前健康，则需要保证重启服务后集群仍是健康状态；
+      如果集群在重启之前异常，则有以下两种情况：
+      1. 重启之前，是由当前服务导致的集群异常，重启当前服务后不能保证集群仍然是健康的，是符合预期的。
+      2. 重启之前，不是当前服务导致的集群异常，则重启后集群仍然是不健康的状态，是符合预期的。
+```
+
+11. 参考影响:
+
+* 情况1：重启部分mds服务
+
+  * 时间: 无
+
+  * 业务方: 无
+
+  * 影响主题: 无
+
+  * 用户：无
+
+* 情况2：同时重启所有的mds服务
+
+  * 时间: 在所有的mds重启过程中，集群不可用
+
+  * 业务方: 所有使用当前集群的业务方
+
+  * 影响主题: mds正在重启
+
+  * 用户：所有使用当前集群的用户
+
+12. 参考风险:
+
+* 情况1：重启部分mds服务
+
+  * 数据面：无
+
+  * 管控面：无
+
+  * 恢复能力：无需恢复
+
+* 情况2：同时重启所有的mds服务
+
+  * 数据面：可能有短暂的IO抖动。如果客户端缓存没有过期，则IO无影响。
+
+  * 管控面：管理服务暂不可用
+
+  * 恢复能力：无需恢复
+
+13. 参考回滚策略: 无
+
+14. 需求发起方: CURVE
+
+15. 接收方:
+
+16. 评审责任人: SRE负责人，SA负责人，CURVE负责人
+
+17. 用户通知责任人: 技术支持
+
+18. 执行责任人: CURVE/SA
+
+19. 测试回归责任人: CURVE
+
+20. 执行审核责任人: SA/CURVE/SRE