跳转至

注意事项

如何高效利用资源

关于如何正确配置和申请硬件资源,请参考分区规则和收费标准

如用户提交的作业申请的 CPU 核数超过 64 核 (即多于一个节点),请按照 64 的整数倍申请 CPU 资源,提高计算节点的使用率。

各软件提交任务脚本模板

请参考软件使用说明中各个应用的详细说明,或在集群 /public/slurmscript_demo 目录下查找。

常见报错信息

Invalid partition name specified

报错信息:

error: Job submit/allocate failed: Invalid partition name specified

错误原因:未指定正确的分区,可通过以下指令获取可用的分区

sacctmgr show ass user=`whoami` format=part | uniq

注意

dpcpudpgpu 队列由于技术原因不可提交。

Invalid account or account/partition combination specified

报错信息:

error: Job submit/allocate failed: Invalid account or account/partition combination specified

错误原因:通常是因为没有指定正确的账户,可通过以下指令获取可用账户。

sacctmgr show ass user=`whoami` format=account%20 | uniq

如果已经指定了正确的账户,则可能是由于账户欠费等原因被临时封禁,请联系智算中心技术人员进行确认。

QOSMaxWallDurationPerJobLimit

错误原因:指定 -t, --time= 参数时,时间超过qos允许的时长,通过以下命令可以查看相应qos允许运行的最大时长。

sacctmgr show qos format=name,MaxWall

Requested node configuration is not available

报错信息:

batch job submission failed: Requested node configuration is not available

错误原因:申请资源的节点配置不匹配,如 cpu 队列的每个节点只有64个核心,但用户申请申请该节点的核心数超过64,就会报错

QOSNotAllowed

错误原因:没有指定正确的qos,以下命令可以查看不同分区下可用的qos。

sacctmgr show ass user=`whoami` format=user,part,qos

QOSGrpSubmitJobsLimit

出现该错误的原因通常为账户没有余额,或者账户被封锁。请联系智算中心技术人员进行处理。