其它常用作业管理命令¶
终止作业:scancel job_id
¶
如果想终止一个作业,可利用scancel job_id
来取消,job_id
可以为以 ,
分隔的多个作业ID,如:
scancel 114514
即可取消运行作业编号为 114514 的作业。
挂起排队中尚未运行的作业:scontrol hold job_list
¶
scontrol hold job_list
(job_list
可以为以 ,
分隔的作业ID或 jobname=作业名
)命令可使得排队中尚未运行的作业(设置优先级为0)暂停被分配运行,被挂起的作业将不被执行,这样可以让其余作业优先得到资源运行。
被挂起的作业在用 squeue
命令查询显示的时 NODELIST(REASON) 状态标志为 JobHeldUser(被用户自己挂起)或 JobHeldAdmin(被智算中心技术人员挂起),利用 scontrol release job_list
可取消挂起。
下面命令将挂起作业号为 1919810 的作业:
scontrol hold 1919810
继续排队被挂起的尚未运行作业:scontrol release job_list
¶
被挂起的作业可以利用 scontrol release job_list
来取消挂起,重新进入等待运行状态,job_list
可以为以 ,
分隔的作业ID或jobname=作业名。
scontrol release 1919810
重新运行作业:scontrol requeue job_list
¶
利用 scontrol requeue job_list
重新使得运行中的、挂起的或停止的作业重新进入排队等待运行,job_list
可以为以 ,
分隔的作业ID。
scontrol requeue 1919810
重新挂起作业:scontrol requeuehold job_list
¶
利用 scontrol requeuehold job_list
重新使得运行中的、挂起的或停止的作业重新进入排队,并被挂起等待运行,job_list
可以为以 ,
分隔的作业ID。之后可利用 scontrol release job_list
使其运行。
scontrol requeuehold 1919810
最优先等待运行作业:scontrol top job_id
¶
利用 scontrol top job_list
可以使得尚未开始运行的job_list作业排到用户自己排队作业的最前面,最优先运行,job_list
可以为以 ,
分隔的作业ID。
scontrol top 1919810
等待某个作业运行完:scontrol wait_job job_id
¶
利用 scontrol wait_job job_id
可以等待某个 job_id
结束后开始运行,一般用于脚本中。
scontrol wait 1919810
更新作业信息:scontrol update SPECIFICATION
¶
利用 scontrol update SPECIFICATION
可以更新作业、作业步等信息,SPECIFICATION
格式与 scontaol show job
的输出相一致。
如下面命令将更新作业号为 1919810 的作业名为 Tadokoro
:
scontrol update JobId=1919810 JobName=Tadokoro