-
Notifications
You must be signed in to change notification settings - Fork 9
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Merge pull request #34 from caoxianfei1/main
add admin guide for curvebs and curvefs
- Loading branch information
Showing
44 changed files
with
4,302 additions
and
52 deletions.
There are no files selected for viewing
This file was deleted.
Oops, something went wrong.
71 changes: 71 additions & 0 deletions
71
...veBS/07-maintenance/02-administrator-guide/01-curvebs-controlpanel-start-mds.md
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,71 @@ | ||
# Curve 启动mds | ||
|
||
1. 适用环境: | ||
2. 版本号: v1.2.6+ | ||
3. CurveAdm版本:v0.2.0+ | ||
4. 最后更新日期: 2023/09/30 | ||
5. 层面: 管控面 | ||
6. 运维级别: P1 | ||
7. 所属产品: 存储 | ||
8. 需求明细: 节点名称,具体的mds服务 | ||
9. 验收标准: 该指定的mds服务启动成功,集群健康 | ||
10. 参考步骤: | ||
|
||
```plaintext | ||
1. 查看集群服务状态和指定节点的mds状态: | ||
$ curveadm status | ||
注:如果指定的mds已经处于运行状态(Status为Up状态),则不用再次启动。 | ||
2. 如果处于Exit状态的话,则使用下述命令启动服务: | ||
如果是启动某一个指定的mds,使用--id选项: | ||
$ curveadm start --id <Id> | ||
如果要启动某一个节点上所有mds服务,使用如下命令: | ||
$ curveadm start --host <host> --role mds | ||
如果要启动所有的mds,使用如下命令: | ||
$ curveadm start --role mds | ||
3. 再次查看集群服务状态,查看指定mds服务是否启动成功(Status为Up状态): | ||
$ curveadm status | ||
4. 使用工具查看集群状态是否健康: | ||
$ curve bs status cluster | ||
结果输出有下面字样则集群健康:Cluster health is: ok | ||
``` | ||
|
||
11. 参考影响: | ||
|
||
* 时间: 无 | ||
|
||
* 业务方: 无 | ||
|
||
* 影响主题: 无 | ||
|
||
* 用户:无 | ||
|
||
12. 参考风险: | ||
|
||
* 数据面: 无 | ||
|
||
* 管控面: 无 | ||
|
||
* 恢复能力: 无需恢复 | ||
|
||
13. 参考回滚策略: 停止mds | ||
|
||
14. 需求发起方: CURVE | ||
|
||
15. 接收方: | ||
|
||
16. 评审责任人: SRE负责人,SA负责人,CURVE负责人 | ||
|
||
17. 用户通知责任人: 技术支持 | ||
|
||
18. 执行责任人: CURVE/SA | ||
|
||
19. 测试回归责任人: CURVE | ||
|
||
20. 执行审核责任人: SA/CURVE/SRE |
97 changes: 97 additions & 0 deletions
97
...rveBS/07-maintenance/02-administrator-guide/02-curvebs-controlpanel-stop-mds.md
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,97 @@ | ||
# Curve 停止mds | ||
|
||
1. 适用环境: | ||
2. 版本号: v1.2.6+ | ||
3. CurveAdm版本:v0.2.0+ | ||
4. 最后更新日期: 2023/09/30 | ||
5. 层面: 管控面 | ||
6. 运维级别: P1 | ||
7. 所属产品: 存储 | ||
8. 需求明细: 具体节点,具体的mds服务 | ||
9. 验收标准: 该节点的mds服务停止成功,并且集群健康 | ||
10. 参考步骤: | ||
|
||
```plaintext | ||
1. 查看集群服务状态和指定节点的mds状态: | ||
$ curveadm status | ||
注:如果指定的mds已经处于退出状态(Status为Exited状态),则不用重复操作。 | ||
2. 如果处于Up状态,则使用下述命令停止服务, | ||
如果是停止某个指定的mds,使用--id选项: | ||
$ curveadm stop --id <Id> | ||
如果要停止某个节点上的所有的mds服务,使用如下命令: | ||
$ curveadm stop --host <host> --role mds | ||
如果要停止集群中所有的mds服务,使用如下命令:(一般不会进行操作) | ||
注意:如果停止所有的mds,则导致集群不可用,请在进行下列操作前仔细确认是否要停掉所有的mds服务 | ||
$ curveadm stop --role mds | ||
3. 再次查看集群服务状态,查看指定mds服务是否已经退出(Status为Exited状态): | ||
$ curveadm status | ||
4. 使用工具使用查看当前集群状态: | ||
$ curve bs status cluster | ||
当停止部分mds服务后,上述命令输出提示集群处于warn状态 Cluster health is: warn,符合预期。 | ||
如果停止部分mds服务后,上述命令输出提示集群处于error状态 Cluster health is: error,则表示集群出错,需要重新拉起刚才停掉的mds。 | ||
(一般不会做此操作)停掉所有的mds服务,集群应该处于error状态 Cluster health is: error。 | ||
``` | ||
|
||
11. 参考影响: | ||
|
||
* 情况1:停止部分mds | ||
|
||
* 时间: 无 | ||
|
||
* 业务方: 无 | ||
|
||
* 影响主题: 无 | ||
|
||
* 用户:无 | ||
|
||
* 情况2:停掉所有的mds服务 | ||
|
||
* 时间:直至有mds服务启动之前,集群不可用 | ||
|
||
* 业务方:所有使用当前集群的业务方 | ||
|
||
* 影响主题:mds挂掉 | ||
|
||
* 用户:所有使用当前集群的用户 | ||
|
||
12. 参考风险: | ||
|
||
* 情况1:停止部分mds服务 | ||
|
||
* 数据面: 无 | ||
|
||
* 管控面: 无 | ||
|
||
* 恢复能力: 无需恢复 | ||
|
||
* 情况2:停掉所有mds服务 | ||
|
||
* 数据面: IO暂停 | ||
|
||
* 管控面: 管控面服务不可用 | ||
|
||
* 恢复能力: 无需恢复 | ||
|
||
13. 参考回滚策略: 重新拉起mds | ||
|
||
14. 需求发起方: CURVE | ||
|
||
15. 接收方: | ||
|
||
16. 评审责任人: SRE负责人,SA负责人,CURVE负责人 | ||
|
||
17. 用户通知责任人: 技术支持 | ||
|
||
18. 执行责任人: CURVE/SA | ||
|
||
19. 测试回归责任人: CURVE | ||
|
||
20. 执行审核责任人: SA/CURVE/SRE |
105 changes: 105 additions & 0 deletions
105
...BS/07-maintenance/02-administrator-guide/03-curvebs-controlpanel-restart-mds.md
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,105 @@ | ||
# Curve 重启mds | ||
|
||
1. 适用环境: | ||
2. 版本号: v1.2.6+ | ||
3. CurveAdm版本:v0.2.0+ | ||
4. 最后更新日期: 2023/09/30 | ||
5. 层面: 管控面 | ||
6. 运维级别: P1 | ||
7. 所属产品: 存储 | ||
8. 需求明细: 节点名称,具体的mds服务 | ||
9. 验收标准: 指定的mds服重启成功,集群健康,并且可以正常对外提供服务 | ||
10. 参考步骤: | ||
|
||
```plaintext | ||
1. 使用工具查看集群是否健康,当前mds是否异常: | ||
$ curve bs status cluster | ||
结果输出有下面字样则集群健康:Cluster health is: ok | ||
注:1. 集群健康(ok):如果集群健康,继续执行后续步骤。重启当前服务后需确保集群仍是健康状态。 | ||
2. 集群异常(warn/error): | ||
使用工具查看是否是mds异常: | ||
$ curve bs status mds | ||
2.1 如果是当前要重启的服务导致的异常(warn/error)并希望重启恢复,则继续执行后续步骤。但重启之后不能保证集群是健康状态。 | ||
2.2 如果当前要重启的服务正常,其他的服务异常导致的集群不健康,则继续执行后续步骤。但是重启当前服务后集群仍然处于不健康状态。 | ||
2. 使用如下命令重启mds服务: | ||
如果是重启某个指定的mds服务,使用--id选项: | ||
$ curveadm restart --id <Id> | ||
如果要重启某个节点下的所有的mds服务,使用如下命令: | ||
$ curveadm restart --host <host> --role mds | ||
(一般不会做此操作)如果要重启集群中所有的mds服务,使用如下命令: | ||
注意:如果重启所有的mds,则导致集群短暂不可用,在重启期间所有IO出错,请谨慎进行下列操作。 | ||
$ curveadm restart --role mds | ||
3. 再次查看集群服务状态,查看指定mds服务是否重启成功: | ||
$ curveadm status | ||
4. 查看集群是否健康: | ||
$ curve bs status cluster | ||
结果输出有下面字样则集群健康:Cluster health is: ok | ||
注:如果集群在重启之前健康,则需要保证重启服务后集群仍是健康状态; | ||
如果集群在重启之前异常,则有以下两种情况: | ||
1. 重启之前,是由当前服务导致的集群异常,重启当前服务后不能保证集群仍然是健康的,是符合预期的。 | ||
2. 重启之前,不是当前服务导致的集群异常,则重启后集群仍然是不健康的状态,是符合预期的。 | ||
``` | ||
|
||
11. 参考影响: | ||
|
||
* 情况1:重启部分mds服务 | ||
|
||
* 时间: 无 | ||
|
||
* 业务方: 无 | ||
|
||
* 影响主题: 无 | ||
|
||
* 用户:无 | ||
|
||
* 情况2:同时重启所有的mds服务 | ||
|
||
* 时间: 在所有的mds重启过程中,集群不可用 | ||
|
||
* 业务方: 所有使用当前集群的业务方 | ||
|
||
* 影响主题: mds正在重启 | ||
|
||
* 用户:所有使用当前集群的用户 | ||
|
||
12. 参考风险: | ||
|
||
* 情况1:重启部分mds服务 | ||
|
||
* 数据面:无 | ||
|
||
* 管控面:无 | ||
|
||
* 恢复能力:无需恢复 | ||
|
||
* 情况2:同时重启所有的mds服务 | ||
|
||
* 数据面:可能有短暂的IO抖动。如果客户端缓存没有过期,则IO无影响。 | ||
|
||
* 管控面:管理服务暂不可用 | ||
|
||
* 恢复能力:无需恢复 | ||
|
||
13. 参考回滚策略: 无 | ||
|
||
14. 需求发起方: CURVE | ||
|
||
15. 接收方: | ||
|
||
16. 评审责任人: SRE负责人,SA负责人,CURVE负责人 | ||
|
||
17. 用户通知责任人: 技术支持 | ||
|
||
18. 执行责任人: CURVE/SA | ||
|
||
19. 测试回归责任人: CURVE | ||
|
||
20. 执行审核责任人: SA/CURVE/SRE |
Oops, something went wrong.