常见问题¶
本列表收录运维过程中用户提出的一些常见问题,并根据用户反馈情况持续更新。
使用过程中发现的其他问题请查阅本用户手册或通过微信、邮件等渠道联系我们。
更新日志
本页面更新时间 2024-12-10
忘记密码或密钥丢失怎么办?¶
如用户忘记密码,或者密钥丢失,可利用用户申请时的联系邮箱,发送密码重置需求到 ikkemhpc@xmu.edu.cn 邮箱,或在微信服务群内联系智算中心技术人员进行重置。
集群的收费标准是什么?¶
平台集群总费用为CPU,GPU和存储三者的费用之和。CPU 资源按核时收费,GPU 资源按卡时收费。具体费率标准请参考分区规则和收费标准,或请发送邮件至ikkemhpc@xmu.edu.cn咨询。
单个作业最长运行时间是多长?¶
具体时间限制可以通过 sacctmgr show qos format=Name,MaxWall,Priority
命令查看 MaxWall
参量。
集群通过对用户指定的 QOS 来对作业最长运行时长进行限制:
QOS | 任务最长运行时间 |
---|---|
normal | 2天 (48h) |
long | 4天 (96h) |
注意
超过 4 天的任务需提前 1 天邮件告知用户名和 jobID
,延长后原则上不超过 10 天。
为什么 sinfo
查看对应的分区有空闲节点,但是我的作业却还在排队¶
高性能计算平台采用 Slurm 作业调度系统,由于调度的进行,作业可能暂时在队列中显示排队,请稍等调度系统自动处理。
同时队列中可能有需要占用多节点的高优先级任务正在等待资源,调度器会一定程度上为这些作业保留资源,以确保它们能够运行。
对于 GPU 队列,我们要求用户需要至少申请一张 GPU 卡,但 sinfo
在显示队列空闲时依据的是 CPU 核是否已完全分配,当有用户未申请足够的 CPU 核时,可能导致 GPU 卡全部分配后尚有剩余 CPU 核,故在系统中显示为 mix
。
为什么我的作业运行结果是作业运行结果是node_fail
,该怎么处理?¶
node_fail
是提示由于计算节点故障导致作业运行失败,请联系或等待智算中心技术人员进行处理。
为什么我在登录节点上的程序会被终止,我能否在登录节点运行程序?¶
登录节点用于文件编辑、作业提交、小型应用编译、文件下载等轻量级工作。而科学计算、大文件校验等计算密集型任务,会占用较多计算资源,影响其他用户正常使用。请尽量不要在登录节点上持续运行需要过多资源的任务,推荐通过 salloc
或 srun
等方式将这些任务提交到计算节点上执行。
对于 JupyterLab 等交互式应用,推荐通过嘉庚智算中心服务门户使用。
为了保障用户体验,我们在登录节点设置了任务检测服务——Arbiter2,监控并查杀不正常占用登录节点资源的任务。
每个用户原则上在登录节点上至多只能使用 8 核 CPU 和 16 GB内存资源。当用户在登录节点上持续较长时间占用资源或使用多于上述限制的资源,程序会对这类用户占用情况进行记录,并根据持续时间采取限制资源上限的措施。
资源上限限制生效的情况下,在登录节点上用户可用的CPU和内存上限会在原本基础上进一步减少。因此,用户可能会感知到任务效率显著减缓或者出现因超出内存上限被终止 (OOM)。
上述限制仅对登录节点生效,不影响作业提交。
为什么我的作业运行报错,提示 Detected 1 oom-kill event(s)
?¶
当输出文件中出现类似如下的报错信息时:
slurmstepd: error: Detected 1 oom-kill event(s) in StepId=297996.0. Some of your processes may have been killed by the cgroup out-of-memory handler.
srun: error: cu031: task 0: Out Of Memory
这种情况往往是由于作业所申请的内存未能满足作业实际需要,请根据情况尝试以下可能的解决方案:
- 可尝试申请更多的核数和内存:例如对 CPU 分区,在申请整个节点 (64 核) 的情况下可设置
#SBATCH --mem=251G
以使用整个节点的内存 - 可尝试设置更大的
OMP_STACKSIZE
- 可尝试增大
OMP_NUM_THREADS
以让同一进程内各线程共享内存,减少总的内存消耗 - 可尝试减少 MPI 并行核数
- 可申请更多节点,或应用其他可能的优化策略
如何在集群上安装软件?¶
集群上已经安装部署了不同领域用户常用的软件应用,请首先利用 module av
等命令检查集群上是否已经部署,并根据软件使用说明或其他使用说明自行检查其可用性。
如确实需要在集群上进行安装,请依次判断适用哪种情况:
- 若为商业软件,请自行获取软件使用权并安装。
- 如自行安装确有困难,可提供软件使用权证明和安装包、安装步骤等,联系智算中心技术人员协助安装。
- 不允许在嘉庚智算上使用盗版软件。
- 若为免费或开源软件,请按照以下步骤进行操作。
- 若未安装,请先考虑是否能用
conda
方法安装。对于市面上常见的许多软件(如深度学习框架 TensorFlow、PyTorch等),conda
均可提供捷安装。请参考 软件使用说明——Anaconda - 考虑在自己家目录 (
/public/home/<username>
,即~
)下进行安装。可参照应用程序的编译与安装的实践。如遇到问题,请自行通过搜索引擎查找可能的解决方案,或将可复现的步骤发至智算中心技术人员微信或 ikkemhpc@xmu.edu.cn 邮箱获取帮助。 - 软件也可利用 Singularity 容器部署或使用,详请参考软件使用说明——Singularity。
- 我们也将持续根据用户需求对常用免费或者开源软件进行评估,以便全局部署。如有需求,欢迎随时微信或者邮件联系智算中心技术人员。
- 若未安装,请先考虑是否能用
集群上是否提供商业授权软件?¶
目前暂时仅提供了 VASP、Gaussian、COMSOL 5.6、Ansys、Matlab等。用户如需使用,须联系智算中心商务人员并提供软件使用权证明以开通权限。
普通用户如何使用 sudo
安装软件?¶
有别于独占的个人电脑和工作站,高性能计算用户共享软硬件设施,使用 sudo
特权操作极有可能影响其他用户的程序和数据,因此普通用户禁止使用 sudo
。
通常普通用户无需 sudo
就能在用户目录中安装和使用软件,因此请优先考虑通过 conda
虚拟环境或者在 ~
(家目录)的子目录下通过源码安装。
请参照当前集群提供的软件模块或通过ikkemhpc@xmu.edu.cn邮箱告诉我们需要安装的软件。
当然,普通用户也可以使用 Singularity 容器的方式安装,容器内用户拥有“模拟root权限”。
如何在论文中致谢嘉庚智算中心?¶
致谢模版如下。欢迎大家将已接收的高质量成果通过邮件ikkemhpc@xmu.edu.cn分享给我们。
本论文的计算结果得到了嘉庚创新实验室智算中心的支持和帮助
The calculation results of this paper have been supported and helped by ikkem Intelligent Computing Center
利用智算资源发表成果,有无相应的机时奖励政策?¶
目前暂无。