-
Notifications
You must be signed in to change notification settings - Fork 9
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Signed-off-by: caoxianfei <[email protected]>
- Loading branch information
caoxianfei
committed
Oct 27, 2023
1 parent
ad7c78b
commit 08da4f7
Showing
20 changed files
with
1,709 additions
and
26 deletions.
There are no files selected for viewing
This file was deleted.
Oops, something went wrong.
70 changes: 70 additions & 0 deletions
70
...veFS/07-maintenance/02-administrator-guide/01-curvefs-controlpanel-start-mds.md
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,70 @@ | ||
# Curve 启动mds | ||
|
||
1. 适用环境: | ||
2. 版本号: v2.6/v2.7 | ||
3. 最后更新日期: 2023/09/30 | ||
4. 层面: 管控面 | ||
5. 运维级别: P1 | ||
6. 所属产品: 存储 | ||
7. 需求明细: 节点名称,具体的mds服务 | ||
8. 验收标准: 该指定的mds服务启动成功,集群健康 | ||
9. 参考步骤: | ||
|
||
```plaintext | ||
1. 查看集群状态和指定节点的mds状态: | ||
$ curveadm status | ||
注:如果指定的mds已经处于运行状态(Status为Up状态),则不用再次启动。 | ||
2. 如果处于Exit状态的话,则使用下述命令启动服务: | ||
如果是启动某一个指定的mds,使用--id选项: | ||
$ curveadm start --id <Id> | ||
如果要启动某一个节点上所有mds服务,使用如下命令: | ||
$ curveadm start --host <hostip> --role mds | ||
如果要启动所有的mds,使用如下命令: | ||
$ curveadm start --role mds | ||
3. 再次查看集群状态,查看指定mds服务是否启动成功(Status为Up状态): | ||
$ curveadm status | ||
4. 使用工具查看集群状态是否健康: | ||
$ curve fs status cluster | ||
结果输出有下面字样则集群健康:Cluster health is: ok | ||
``` | ||
|
||
10. 参考影响: | ||
|
||
* 时间: 无 | ||
|
||
* 业务方: 无 | ||
|
||
* 影响主题: 无 | ||
|
||
* 用户:无 | ||
|
||
11. 参考风险: | ||
|
||
* 数据面: 无 | ||
|
||
* 管控面: 无 | ||
|
||
* 恢复能力: 无需恢复 | ||
|
||
12. 参考回滚策略: 停止mds | ||
|
||
13. 需求发起方: CURVE | ||
|
||
14. 接收方: | ||
|
||
15. 评审责任人: SRE负责人,SA负责人,CURVE负责人 | ||
|
||
16. 用户通知责任人: 技术支持 | ||
|
||
17. 执行责任人: CURVE/SA | ||
|
||
18. 测试回归责任人: CURVE | ||
|
||
19. 执行审核责任人: SA/CURVE/SRE |
80 changes: 80 additions & 0 deletions
80
...rveFS/07-maintenance/02-administrator-guide/02-curvefs-controlpanel-stop-mds.md
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,80 @@ | ||
# Curve 停止mds | ||
|
||
1. 适用环境: | ||
2. 版本号: v2.6/v2.7 | ||
3. 最后更新日期: 2023/09/30 | ||
4. 层面: 管控面 | ||
5. 运维级别: P1 | ||
6. 所属产品: 存储 | ||
7. 需求明细: 具体节点 | ||
8. 验收标准: 该节点的mds服务停止成功,并且集群健康 | ||
9. 参考步骤: | ||
|
||
```plaintext | ||
1. 查看集群状态和指定节点的mds状态: | ||
$ curveadm status | ||
注:如果指定的mds已经处于退出状态(Status为Exited状态),则不用重复操作。 | ||
2. 如果处于Up状态,则使用下述命令停止服务, | ||
如果是停止某个指定的mds,使用--id选项: | ||
$ curveadm stop --id <Id> | ||
如果要停止某个节点上的所有的mds服务,使用如下命令: | ||
$ curveadm stop --host <hostip> --role mds | ||
如果要停止集群中所有的mds服务,使用如下命令:(一般不会进行操作) | ||
注意:如果停止所有的mds,则导致集群不可用,请在进行下列操作前仔细确认是否要停掉所有的mds服务 | ||
$ curveadm stop --role mds | ||
3. 再次查看集群状态,查看指定mds服务是否已经退出(Status为Exited状态): | ||
$ curveadm status | ||
4. 使用工具使用查看当前集群状态: | ||
$ curve fs status cluster | ||
当停止部分mds服务后,上述命令输出提示集群处于warn状态 Cluster health is: warn,符合预期。 | ||
如果停止部分mds服务后,上述命令输出提示集群处于error状态 Cluster health is: error,则表示集群出错,需要重新拉起刚才停掉的mds。 | ||
(一般不会操作)停掉所有的mds服务,集群应该处于error状态 Cluster health is: error。 | ||
``` | ||
|
||
10. 参考影响: | ||
|
||
* 情况1:停止部分mds | ||
* 时间: 无 | ||
* 业务方: 无 | ||
* 影响主题: 无 | ||
* 用户:无 | ||
* 情况2:停掉所有的mds服务 | ||
* 时间:直至有mds服务启动之前,集群不可用 | ||
* 业务方:所有使用当前集群的业务方 | ||
* 影响主题:mds挂掉 | ||
* 用户:所有使用当前集群的用户 | ||
|
||
11. 参考风险: | ||
|
||
* 情况1:停止部分mds服务 | ||
* 数据面: 无 | ||
* 管控面: 无 | ||
* 恢复能力: 无需恢复 | ||
* 情况2:停掉所有mds服务 | ||
* 数据面: IO暂停 | ||
* 管控面: 管控面服务不可用 | ||
* 恢复能力: 无需回复 | ||
|
||
12. 参考回滚策略: 重新拉起mds | ||
|
||
13. 需求发起方: CURVE | ||
|
||
14. 接收方: | ||
|
||
15. 评审责任人: SRE负责人,SA负责人,CURVE负责人 | ||
|
||
16. 用户通知责任人: 技术支持 | ||
|
||
17. 执行责任人: CURVE/SA | ||
|
||
18. 测试回归责任人: CURVE | ||
|
||
19. 执行审核责任人: SA/CURVE/SRE |
84 changes: 84 additions & 0 deletions
84
...FS/07-maintenance/02-administrator-guide/03-curvefs-controlpanel-restart-mds.md
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,84 @@ | ||
# Curve 重启mds | ||
|
||
1. 适用环境: | ||
2. 版本号: v2.6/v2.7 | ||
3. 最后更新日期: 2023/09/30 | ||
4. 层面: 管控面 | ||
5. 运维级别: P1 | ||
6. 所属产品: 存储 | ||
7. 需求明细: 节点名称,具体的mds服务 | ||
8. 验收标准: 指定的mds服重启成功,集群健康,并且可以正常对外提供服务 | ||
9. 参考步骤: | ||
|
||
```plaintext | ||
1. 使用工具查看集群是否健康,当前mds是否异常: | ||
$ curve fs status cluster | ||
结果输出有下面字样则集群健康:Cluster health is: ok | ||
$ curve fs status mds | ||
注:如果mds异常,则需要判断异常原因,以及是否仍然需要重启 | ||
2. 使用如下命令重启mds服务: | ||
如果是重启某个指定的mds服务,使用--id选项: | ||
$ curveadm restart --id <Id> | ||
如果要重启某个节点下的所有的mds服务,使用如下命令: | ||
$ curveadm restart --host <hostip> --role mds | ||
如果要重启集群中所有的mds服务,使用如下命令: | ||
注意:如果重启所有的mds,则导致集群短暂不可用,在重启期间所有IO出错,请谨慎进行下列操作。 | ||
$ curveadm restart --role mds | ||
3. 再次查看集群状态,查看指定mds服务是否重启成功: | ||
$ curveadm status | ||
4. 查看集群是否健康: | ||
$ curve fs status cluster | ||
结果输出有下面字样则集群健康:Cluster health is: ok | ||
``` | ||
|
||
10. 参考影响: | ||
|
||
* 情况1:重启部分mds服务 | ||
* 时间: 无 | ||
* 业务方: 无 | ||
|
||
* 影响主题: 无 | ||
|
||
* 用户:无 | ||
* 情况2:同时重启所有的mds服务 | ||
* 时间: 在所有的mds重启过程中,集群不可用 | ||
* 业务方: 所有使用当前集群的业务方 | ||
|
||
* 影响主题: mds正在重启 | ||
|
||
* 用户:所有使用当前集群的用户 | ||
|
||
11. 参考风险: | ||
|
||
* 情况1:重启部分mds服务 | ||
* 数据面:无 | ||
* 管控面:无 | ||
* 恢复能力:无需恢复 | ||
* 情况2:同时重启所有的mds服务 | ||
* 数据面:可能有短暂的IO抖动 | ||
* 管控面:管理服务暂不可用 | ||
* 恢复能力:无需恢复 | ||
|
||
12. 参考回滚策略: 无 | ||
|
||
13. 需求发起方: CURVE | ||
|
||
14. 接收方: | ||
|
||
15. 评审责任人: SRE负责人,SA负责人,CURVE负责人 | ||
|
||
16. 用户通知责任人: 技术支持 | ||
|
||
17. 执行责任人: CURVE/SA | ||
|
||
18. 测试回归责任人: CURVE | ||
|
||
19. 执行审核责任人: SA/CURVE/SRE |
92 changes: 92 additions & 0 deletions
92
...eFS/07-maintenance/02-administrator-guide/04-curvefs-controlpanel-config-mds.md
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,92 @@ | ||
# Curve 修改mds配置 | ||
|
||
1. 适用环境: | ||
2. 版本号: v2.6/v2.7 | ||
3. 最后更新日期: 2023/09/30 | ||
4. 层面: 管控面 | ||
5. 运维级别: P1 | ||
6. 所属产品: 存储 | ||
7. 需求明细: 节点名称,具体的mds服务 | ||
8. 验收标准: 指定的mds服务启动成功,集群健康 | ||
9. 参考步骤: | ||
|
||
```plaintext | ||
1. 需要先确认当前集群是否健康: | ||
$ curve fs status cluster | ||
结果输出有下面字样则集群健康:Cluster health is: ok | ||
如果集群是健康状态的话,则可以修改mds的配置。 | ||
如果当前集群处于warn状态,则需要判断是否因为mds服务异常导致,如果是mds问题,则不要进行下面操作。 | ||
2. 备份本地集群拓扑文件: | ||
$ cp topology.yaml topology-old.yaml | ||
注:当本地拓扑文件丢失时,我们可以通过如下命令保存当前的集群拓扑来恢复: | ||
$ curveadm config show > topology.yaml | ||
3. 编辑本地集群拓扑文件,在拓扑文件中增加/删除/修改mds服务的配置项: | ||
$ vim topology.yaml | ||
4. 提交修改的集群拓扑: | ||
$ curveadm config commit topology.yaml | ||
5. 重新加载服务: | ||
$ curveadm reload --role mds | ||
CurveAdm 使用上述命令默认重新加载集群中的所有 mds 服务,如需重新加载指定服务,可通过添加以下 3 个选项来实现: | ||
--id: 重新加载指定 id 的服务 | ||
--host: 重新加载指定主机的所有服务 | ||
--role: 重新加载指定角色的所有服务 | ||
以上 3 个选项可任意组合使用,服务对应的 id、host、role 可通过 curveadm status 来查看。 | ||
示例 1:重新加载 id 为 c9570c0d0252 的mds服务 | ||
$ curveadm reload --id c9570c0d0252 | ||
示例 2:重新加载 10.0.1.1 这台主机上的所有 mds 服务 | ||
$ curveadm reload --host 10.0.1.1 --role mds | ||
示例 3: 重新加载所有的mds服务(需确认) | ||
提醒:该操作会重启机器中的所有mds服务,所以在执行下列操作时,可能会导致IO短暂时间的抖动。 | ||
$ curveadm reload --role mds | ||
6. 再次查看指定的mds服务是否已经启动(Status为Up状态): | ||
$ curveadm status | ||
7. 查看集群的健康状态: | ||
$ curve fs status cluster | ||
结果输出有下面字样则集群健康:Cluster health is: ok | ||
``` | ||
|
||
10. 参考影响: | ||
|
||
* 时间: 无 | ||
|
||
* 业务方: 无 | ||
|
||
* 影响主题: 无 | ||
|
||
* 用户:无 | ||
|
||
11. 参考风险 | ||
|
||
* 数据面: IO可能有短暂时间抖动 | ||
|
||
* 管控面: 管理服务短暂不可用 | ||
|
||
* 恢复能力: 无需恢复 | ||
|
||
12. 参考回滚策略: 回退mds配置到之前的值 | ||
|
||
13. 需求发起方: CURVE | ||
|
||
14. 接收方: | ||
|
||
15. 评审责任人: SRE负责人,SA负责人,CURVE负责人 | ||
|
||
16. 用户通知责任人: 技术支持 | ||
|
||
17. 执行责任人: CURVE/SA | ||
|
||
18. 测试回归责任人: CURVE | ||
|
||
19. 执行审核责任人: SA/CURVE/SRE |
Oops, something went wrong.