跳转至

其它常用作业管理命令

终止作业:scancel job_id

如果想终止一个作业,可利用scancel job_id来取消,job_id 可以为以 , 分隔的多个作业ID,如:

scancel 114514

即可取消运行作业编号为 114514 的作业。

挂起排队中尚未运行的作业:scontrol hold job_list

scontrol hold job_listjob_list 可以为以 , 分隔的作业ID或 jobname=作业名)命令可使得排队中尚未运行的作业(设置优先级为0)暂停被分配运行,被挂起的作业将不被执行,这样可以让其余作业优先得到资源运行。

被挂起的作业在用 squeue 命令查询显示的时 NODELIST(REASON) 状态标志为 JobHeldUser(被用户自己挂起)或 JobHeldAdmin(被智算中心技术人员挂起),利用 scontrol release job_list 可取消挂起。

下面命令将挂起作业号为 1919810 的作业:

scontrol hold 1919810

继续排队被挂起的尚未运行作业:scontrol release job_list

被挂起的作业可以利用 scontrol release job_list 来取消挂起,重新进入等待运行状态,job_list 可以为以 , 分隔的作业ID或jobname=作业名。

scontrol release 1919810

重新运行作业:scontrol requeue job_list

利用 scontrol requeue job_list 重新使得运行中的、挂起的或停止的作业重新进入排队等待运行,job_list 可以为以 , 分隔的作业ID。

scontrol requeue 1919810

重新挂起作业:scontrol requeuehold job_list

利用 scontrol requeuehold job_list 重新使得运行中的、挂起的或停止的作业重新进入排队,并被挂起等待运行,job_list 可以为以 , 分隔的作业ID。之后可利用 scontrol release job_list 使其运行。

scontrol requeuehold 1919810

最优先等待运行作业:scontrol top job_id

利用 scontrol top job_list 可以使得尚未开始运行的job_list作业排到用户自己排队作业的最前面,最优先运行,job_list 可以为以 , 分隔的作业ID。

scontrol top 1919810

等待某个作业运行完:scontrol wait_job job_id

利用 scontrol wait_job job_id 可以等待某个 job_id 结束后开始运行,一般用于脚本中。

scontrol wait 1919810

更新作业信息:scontrol update SPECIFICATION

利用 scontrol update SPECIFICATION 可以更新作业、作业步等信息,SPECIFICATION 格式与 scontaol show job 的输出相一致。

如下面命令将更新作业号为 1919810 的作业名为 Tadokoro

scontrol update JobId=1919810 JobName=Tadokoro