Skip to content

新增cbatch -H,-- hold 功能 #545

@haofangTu-bot

Description

@haofangTu-bot

1、功能描述:--hold 是一个标志性参数(flag),它不接受任何值。其核心功能是:在提交作业时,立即将其置为一个“暂存”状态。一个处于暂存状态的作业,即使当前有充足的资源,也绝对不会被调度器选中并运行。它会一直“安静地”待在队列中,直到被用户或管理员手动“释放(release)”。

slurm解释会说它“将优先级设置为0”。--hold会给作业附加一个特定的状态标签。当用户使用 squeue 命令查看时,会发现这个作业处于 PENDING (PD) 状态,但其挂起原因(REASON)会是 (JobHeldUser)。Slurm调度器在扫描队列时,会直接跳过所有带有这个标签的作业。只有当这个“制动器”被移除后,作业才会进入正常的优先级排序和资源竞争流程。

任务释放通过 ccontrol release

2、 系统不会自动释放一个被暂存的作业。释放作业是用户的责任。 如果用户忘记了,这个作业将永远处于暂存状态,直到被管理员清理。可以考虑增加一些辅助功能,比如“暂存超时提醒”或在用户界面上突出显示被暂存的作业。

参考来源:https://slurm.schedmd.com/sbatch.html
调研文档:https://e26ruh1viz.feishu.cn/wiki/LGZXwEKjeiTyd6kO55echLfBnWg

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions