Skip to content

Commit 08da4f7

Browse files
author
caoxianfei
committed
commit fs at sheet
Signed-off-by: caoxianfei <[email protected]>
1 parent ad7c78b commit 08da4f7

20 files changed

+1709
-26
lines changed

docs/03-CurveFS/07-maintenance/02-administrator-guide.md

-26
This file was deleted.
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,70 @@
1+
# Curve 启动mds
2+
3+
1. 适用环境:
4+
2. 版本号: v2.6/v2.7
5+
3. 最后更新日期: 2023/09/30
6+
4. 层面: 管控面
7+
5. 运维级别: P1
8+
6. 所属产品: 存储
9+
7. 需求明细: 节点名称,具体的mds服务
10+
8. 验收标准: 该指定的mds服务启动成功,集群健康
11+
9. 参考步骤:
12+
13+
```plaintext
14+
1. 查看集群状态和指定节点的mds状态:
15+
$ curveadm status
16+
17+
注:如果指定的mds已经处于运行状态(Status为Up状态),则不用再次启动。
18+
19+
2. 如果处于Exit状态的话,则使用下述命令启动服务:
20+
21+
如果是启动某一个指定的mds,使用--id选项:
22+
$ curveadm start --id <Id>
23+
24+
如果要启动某一个节点上所有mds服务,使用如下命令:
25+
$ curveadm start --host <hostip> --role mds
26+
27+
如果要启动所有的mds,使用如下命令:
28+
$ curveadm start --role mds
29+
30+
3. 再次查看集群状态,查看指定mds服务是否启动成功(Status为Up状态):
31+
$ curveadm status
32+
33+
4. 使用工具查看集群状态是否健康:
34+
$ curve fs status cluster
35+
结果输出有下面字样则集群健康:Cluster health is: ok
36+
```
37+
38+
10. 参考影响:
39+
40+
* 时间: 无
41+
42+
* 业务方: 无
43+
44+
* 影响主题: 无
45+
46+
* 用户:无
47+
48+
11. 参考风险:
49+
50+
* 数据面: 无
51+
52+
* 管控面: 无
53+
54+
* 恢复能力: 无需恢复
55+
56+
12. 参考回滚策略: 停止mds
57+
58+
13. 需求发起方: CURVE
59+
60+
14. 接收方:
61+
62+
15. 评审责任人: SRE负责人,SA负责人,CURVE负责人
63+
64+
16. 用户通知责任人: 技术支持
65+
66+
17. 执行责任人: CURVE/SA
67+
68+
18. 测试回归责任人: CURVE
69+
70+
19. 执行审核责任人: SA/CURVE/SRE
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,80 @@
1+
# Curve 停止mds
2+
3+
1. 适用环境:
4+
2. 版本号: v2.6/v2.7
5+
3. 最后更新日期: 2023/09/30
6+
4. 层面: 管控面
7+
5. 运维级别: P1
8+
6. 所属产品: 存储
9+
7. 需求明细: 具体节点
10+
8. 验收标准: 该节点的mds服务停止成功,并且集群健康
11+
9. 参考步骤:
12+
13+
```plaintext
14+
1. 查看集群状态和指定节点的mds状态:
15+
$ curveadm status
16+
17+
注:如果指定的mds已经处于退出状态(Status为Exited状态),则不用重复操作。
18+
19+
2. 如果处于Up状态,则使用下述命令停止服务,
20+
21+
如果是停止某个指定的mds,使用--id选项:
22+
$ curveadm stop --id <Id>
23+
24+
如果要停止某个节点上的所有的mds服务,使用如下命令:
25+
$ curveadm stop --host <hostip> --role mds
26+
27+
如果要停止集群中所有的mds服务,使用如下命令:(一般不会进行操作)
28+
注意:如果停止所有的mds,则导致集群不可用,请在进行下列操作前仔细确认是否要停掉所有的mds服务
29+
$ curveadm stop --role mds
30+
31+
3. 再次查看集群状态,查看指定mds服务是否已经退出(Status为Exited状态):
32+
$ curveadm status
33+
34+
4. 使用工具使用查看当前集群状态:
35+
$ curve fs status cluster
36+
37+
当停止部分mds服务后,上述命令输出提示集群处于warn状态 Cluster health is: warn,符合预期。
38+
如果停止部分mds服务后,上述命令输出提示集群处于error状态 Cluster health is: error,则表示集群出错,需要重新拉起刚才停掉的mds。
39+
(一般不会操作)停掉所有的mds服务,集群应该处于error状态 Cluster health is: error。
40+
```
41+
42+
10. 参考影响:
43+
44+
* 情况1:停止部分mds
45+
* 时间: 无
46+
* 业务方: 无
47+
* 影响主题: 无
48+
* 用户:无
49+
* 情况2:停掉所有的mds服务
50+
* 时间:直至有mds服务启动之前,集群不可用
51+
* 业务方:所有使用当前集群的业务方
52+
* 影响主题:mds挂掉
53+
* 用户:所有使用当前集群的用户
54+
55+
11. 参考风险:
56+
57+
* 情况1:停止部分mds服务
58+
* 数据面: 无
59+
* 管控面: 无
60+
* 恢复能力: 无需恢复
61+
* 情况2:停掉所有mds服务
62+
* 数据面: IO暂停
63+
* 管控面: 管控面服务不可用
64+
* 恢复能力: 无需回复
65+
66+
12. 参考回滚策略: 重新拉起mds
67+
68+
13. 需求发起方: CURVE
69+
70+
14. 接收方:
71+
72+
15. 评审责任人: SRE负责人,SA负责人,CURVE负责人
73+
74+
16. 用户通知责任人: 技术支持
75+
76+
17. 执行责任人: CURVE/SA
77+
78+
18. 测试回归责任人: CURVE
79+
80+
19. 执行审核责任人: SA/CURVE/SRE
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,84 @@
1+
# Curve 重启mds
2+
3+
1. 适用环境:
4+
2. 版本号: v2.6/v2.7
5+
3. 最后更新日期: 2023/09/30
6+
4. 层面: 管控面
7+
5. 运维级别: P1
8+
6. 所属产品: 存储
9+
7. 需求明细: 节点名称,具体的mds服务
10+
8. 验收标准: 指定的mds服重启成功,集群健康,并且可以正常对外提供服务
11+
9. 参考步骤:
12+
13+
```plaintext
14+
1. 使用工具查看集群是否健康,当前mds是否异常:
15+
$ curve fs status cluster
16+
结果输出有下面字样则集群健康:Cluster health is: ok
17+
18+
$ curve fs status mds
19+
20+
注:如果mds异常,则需要判断异常原因,以及是否仍然需要重启
21+
22+
2. 使用如下命令重启mds服务:
23+
24+
如果是重启某个指定的mds服务,使用--id选项:
25+
$ curveadm restart --id <Id>
26+
27+
如果要重启某个节点下的所有的mds服务,使用如下命令:
28+
$ curveadm restart --host <hostip> --role mds
29+
30+
如果要重启集群中所有的mds服务,使用如下命令:
31+
注意:如果重启所有的mds,则导致集群短暂不可用,在重启期间所有IO出错,请谨慎进行下列操作。
32+
$ curveadm restart --role mds
33+
34+
3. 再次查看集群状态,查看指定mds服务是否重启成功:
35+
$ curveadm status
36+
37+
4. 查看集群是否健康:
38+
$ curve fs status cluster
39+
结果输出有下面字样则集群健康:Cluster health is: ok
40+
```
41+
42+
10. 参考影响:
43+
44+
* 情况1:重启部分mds服务
45+
* 时间: 无
46+
* 业务方: 无
47+
48+
* 影响主题: 无
49+
50+
* 用户:无
51+
* 情况2:同时重启所有的mds服务
52+
* 时间: 在所有的mds重启过程中,集群不可用
53+
* 业务方: 所有使用当前集群的业务方
54+
55+
* 影响主题: mds正在重启
56+
57+
* 用户:所有使用当前集群的用户
58+
59+
11. 参考风险:
60+
61+
* 情况1:重启部分mds服务
62+
* 数据面:无
63+
* 管控面:无
64+
* 恢复能力:无需恢复
65+
* 情况2:同时重启所有的mds服务
66+
* 数据面:可能有短暂的IO抖动
67+
* 管控面:管理服务暂不可用
68+
* 恢复能力:无需恢复
69+
70+
12. 参考回滚策略: 无
71+
72+
13. 需求发起方: CURVE
73+
74+
14. 接收方:
75+
76+
15. 评审责任人: SRE负责人,SA负责人,CURVE负责人
77+
78+
16. 用户通知责任人: 技术支持
79+
80+
17. 执行责任人: CURVE/SA
81+
82+
18. 测试回归责任人: CURVE
83+
84+
19. 执行审核责任人: SA/CURVE/SRE
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,92 @@
1+
# Curve 修改mds配置
2+
3+
1. 适用环境:
4+
2. 版本号: v2.6/v2.7
5+
3. 最后更新日期: 2023/09/30
6+
4. 层面: 管控面
7+
5. 运维级别: P1
8+
6. 所属产品: 存储
9+
7. 需求明细: 节点名称,具体的mds服务
10+
8. 验收标准: 指定的mds服务启动成功,集群健康
11+
9. 参考步骤:
12+
13+
```plaintext
14+
1. 需要先确认当前集群是否健康:
15+
$ curve fs status cluster
16+
结果输出有下面字样则集群健康:Cluster health is: ok
17+
如果集群是健康状态的话,则可以修改mds的配置。
18+
如果当前集群处于warn状态,则需要判断是否因为mds服务异常导致,如果是mds问题,则不要进行下面操作。
19+
20+
2. 备份本地集群拓扑文件:
21+
$ cp topology.yaml topology-old.yaml
22+
23+
注:当本地拓扑文件丢失时,我们可以通过如下命令保存当前的集群拓扑来恢复:
24+
$ curveadm config show > topology.yaml
25+
26+
3. 编辑本地集群拓扑文件,在拓扑文件中增加/删除/修改mds服务的配置项:
27+
$ vim topology.yaml
28+
29+
4. 提交修改的集群拓扑:
30+
$ curveadm config commit topology.yaml
31+
32+
5. 重新加载服务:
33+
$ curveadm reload --role mds
34+
35+
CurveAdm 使用上述命令默认重新加载集群中的所有 mds 服务,如需重新加载指定服务,可通过添加以下 3 个选项来实现:
36+
37+
--id: 重新加载指定 id 的服务
38+
--host: 重新加载指定主机的所有服务
39+
--role: 重新加载指定角色的所有服务
40+
以上 3 个选项可任意组合使用,服务对应的 id、host、role 可通过 curveadm status 来查看。
41+
42+
示例 1:重新加载 id 为 c9570c0d0252 的mds服务
43+
$ curveadm reload --id c9570c0d0252
44+
45+
示例 2:重新加载 10.0.1.1 这台主机上的所有 mds 服务
46+
$ curveadm reload --host 10.0.1.1 --role mds
47+
48+
示例 3: 重新加载所有的mds服务(需确认)
49+
提醒:该操作会重启机器中的所有mds服务,所以在执行下列操作时,可能会导致IO短暂时间的抖动。
50+
$ curveadm reload --role mds
51+
52+
6. 再次查看指定的mds服务是否已经启动(Status为Up状态):
53+
$ curveadm status
54+
55+
7. 查看集群的健康状态:
56+
$ curve fs status cluster
57+
结果输出有下面字样则集群健康:Cluster health is: ok
58+
```
59+
60+
10. 参考影响:
61+
62+
* 时间: 无
63+
64+
* 业务方: 无
65+
66+
* 影响主题: 无
67+
68+
* 用户:无
69+
70+
11. 参考风险
71+
72+
* 数据面: IO可能有短暂时间抖动
73+
74+
* 管控面: 管理服务短暂不可用
75+
76+
* 恢复能力: 无需恢复
77+
78+
12. 参考回滚策略: 回退mds配置到之前的值
79+
80+
13. 需求发起方: CURVE
81+
82+
14. 接收方:
83+
84+
15. 评审责任人: SRE负责人,SA负责人,CURVE负责人
85+
86+
16. 用户通知责任人: 技术支持
87+
88+
17. 执行责任人: CURVE/SA
89+
90+
18. 测试回归责任人: CURVE
91+
92+
19. 执行审核责任人: SA/CURVE/SRE

0 commit comments

Comments
 (0)