Skip to content

新增 cbatch --cores-per-socket=<cores> 功能 #544

@haofangTu-bot

Description

@haofangTu-bot

1、功能描述:这个参数的核心功能是作为节点选择的硬件约束,它根据每个CPU插槽(Socket)上的物理核心(Core)数量来筛选计算节点。

参数告诉 Slurm:“请只在那些每个CPU插槽至少拥有您指定数量的物理核心的节点上运行我的作业”。

这是一个最小核数要求。例如,如果你指定 --cores-per-socket=16,那么拥有16核/插槽的节点和拥有32核/插槽的节点都满足条件。但是,拥有12核/插槽的节点则不满足。 这个参数让用户可以根据应用程序对CPU核心密度的需求来选择特定类型的硬件。

2、参数格式:正整数

3、这是一个硬性约束。如果用户请求的每插槽核心数超过了集群中所有节点的物理能力,作业将永远无法运行。

例如,如果集群节点最多只有32核/插槽,而用户提交了 --cores-per-socket=64 的作业,它会被成功提交但会一直处于 PENDING 状态,原因为 (ReqNodeNotAvail)。

这是一个下限而不是精确匹配。--cores-per-socket=16 会匹配所有每插槽核心数大于等于16的节点,这在异构集群中可能会导致作业被调度到不同性能的节点上。如果需要精确匹配,可能需要结合使用其他约束,如 Slurm 的 GRES (Generic RESource) 或节点特性(Features)。

参考来源:https://slurm.schedmd.com/sbatch.html
调研:https://e26ruh1viz.feishu.cn/wiki/XTbIw9hLUiOJKwkRWqmcOJfdneh

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions