跳转至

重大更新公告

2026-3-12

【重要通知】嘉庚智算平台登录节点使用规范更新与资源限制调整

尊敬的用户:

近期我们监测到有部分用户在登录节点上直接配置并运行 OpenCLAW 等应用程序,导致集中式高并发 I/O 操作,引发存储系统阻塞,造成登录节点严重卡顿,影响全体用户的正常登录与作业提交。 为保障嘉庚智算平台登录节点的稳定性与可靠性,我们将于 2026年3月13日起对登录节点实施更严格的资源使用策略。本次调整旨在防止因个别用户运行资源密集型任务或脚本导致整个登录节点卡顿甚至宕机,影响所有用户的作业提交体验。

登录节点仅用于以下操作: - 提交、查看、取消作业(如 sbatch, squeue, scancel) - 编辑作业脚本或配置文件(如 vim, nano) - 上传/下载文件(如 scp, rsync文件) - 查看作业输出日志(如cat slurm-*.out)

避免在登录节点执行以下操作(我们将主动监控并终止):

  • 编译大型程序(如 make -j, cmake, gcc大项目)
  • 运行任何计算任务(包括 Python/R/MATLAB 脚本、Jupyter Notebook、AI 训练等)
  • 启动数据库、Web 服务、IDE 后端(如 VS Code Server、RStudio Server)
  • 批量处理数据(如 for f in *.dat; do python process.py ; done)
  • 使用多线程/多进程工具(如 parallel, xargs -P)

其他资源密集型操作请提交到计算节点

例如,原本在登录节点使用 make -j16 进行编译在此次限制生效后如果变慢或者失败, 可以改写为 srun -p cpu -c 16 make -j16
以上命令会临时申请一个 16 核的资源在计算节点上执行编译命令。

如使用遇到问题,请联系管理员,感谢您的理解与配合!

2026年3月12日 嘉庚智算中心运营团队

2026-1-28

群公告 【停电&停机维护通知】嘉庚智算中心集群将于1月30日至2月2日暂停服务 尊敬的各位用户: 根据学校统一安排,嘉庚智算中心所在片区将进行电力检修,具体停电时段如下: 1月30日(周五)00:00–01:00 1月31日(周六)00:00–01:00 2月1日(周日)00:00–01:00 2月2日(下周一)00:00–01:00 同时,中心将对集群开展定期维护工作,以保障系统的稳定与可靠运行。

为确保系统安全及数据完整性,中心将采取以下措施: 自1月29日(周四)14:00起,暂停新作业提交; 逐步关闭计算节点,维护期间登录节点不可用,所有计算任务无法提交或运行; 文件系统可能进入只读模式或暂时不可访问。

重要提醒: 受电力供应不稳定影响,集群存在意外中断风险。为避免数据丢失或任务异常,请您务必: 1、提前完成关键任务,并将重要数据备份至本地或其他安全存储位置; 2、优先提交短时任务,并尽量使用支持断点续算功能的软件,提交时配置好续算脚本; 3、合理调整科研计划,避免在维护期间依赖集群资源。

集群预计于 2月3日上午9:00 起恢复正常服务。 由此带来的不便,我们深表歉意,感谢您的理解与配合! 如有问题欢迎通过微信或邮件与我们及时联系。

嘉庚智算中心 2026年1月28日

2025-8-07

智算集群新增可视化应用功能的通知

尊敬的嘉庚智算用户:

为了更好地满足广大师生的科研与计算需求,智算集群现已上线可视化应用功能。

对于有图形化操作需求的用户(如使用VMD查看分子动力学轨迹等),现在可通过集群服务门户提供的远程桌面功能,运行图形界面应用程序。

使用说明详见用户手册: https://ai4ec.ac.cn/ikkem-hpc/doc/usage/scow/#_5

欢迎有需要的老师和同学使用!如有任何疑问或技术问题,欢迎随时联系我们。

2025-7-25

集群维护计划推迟通知

尊敬的用户:

因固件升级计划与暑期电化学学校的安排冲突, 原定于 2025年7月28日 至 7月29日 的集群停机维护工作 将推迟至 2025年8月4日 进行,具体维护时间范围如下:

作业提交暂停时间:

📅 2025年8月1日(星期五)下午17:00 起

暂停所有作业提交,直至维护完成。 集群停机维护时间:

📅 2025年8月4日-8月5日

所有计算任务和服务将在此期间暂停,预计8月6日恢复正常运行。 请各位用户提前做好相应准备,合理安排作业提交时间,避免因暂停提交影响科研进度。

我们将在后续发布进一步通知,如有变动将第一时间更新。感谢您的理解与支持!

如有疑问,请随时与我们联系。

2025年7月25日 嘉庚智算中心运营团队

2025-7-21

尊敬的嘉庚智算用户:

为了进一步提升我们高性能计算集群的数据处理效率和系统稳定性,我们将进行一次重要的维护与升级工作。 此次维护包括高性能存储固件升级及恢复Slurm管理节点的高可用性配置。具体细节如下:

一、维护目的 高性能存储固件升级:通过升级存储设备的固件版本,提高数据处理效率和安全性。 恢复Slurm管理节点高可用性配置:增强系统的稳定性和容错能力,确保服务的连续性。

二、维护时间安排 日期:2025年7月28日-2025年7月29日 时间段:预计停服2天,有延长会另行通知,同时会提前两天(2025年7月25日17:00)暂停所有作业提交,待所有作业运行完成后进行维护升级 请注意,在上述时间段内,所有计算任务和服务将不可用,请提前做好相应准备。

三、对用户的影响
直接影响: 维护期间,所有计算任务将无法提交和运行。 登录节点不可用,您将无法访问集群。 文件系统可能仅限于只读模式或完全不可访问(视升级方式而定)。 建议措施: 提前完成正在进行的任务,并保存所有重要数据。 将关键数据备份至本地或其他安全位置。 调整您的工作计划,避免在维护时段内依赖集群资源。

四、联系我们 如果您有任何疑问或需要帮助,请随时联系我们的技术支持团队。

感谢您的理解和支持,我们将竭尽全力减少此次维护给您带来的不便。

祝好!

2025年7月21日 嘉庚智算中心运营团队

2024-10-31

新用户手册文档 https://ai4ec.ac.cn/ikkem-hpc/doc 现已上线。

同时,为避免登录节点资源被滥用导致集群的正常功能受影响, 我们在登录节点对每位用户可使用的资源进行了限制, 目前该限制为允许每位用户最多可使用 8 核 CPU、 16G 内存。

登录节点的功能是让大家提交作业和执行基本操作, 例如文件编辑、复制、移动等, 对于资源使用量大的作业, 如并行编译大型软件、数据处理、科学计算等任务, 需要提交到相应的计算节点执行。

对于需要长时间运行的作业,建议编写脚本并使用 sbatch 作业提交 或使用 salloc 申请节点并登录, 简短的任务则可使用 srun 执行。

希望以上信息对大家有所帮助, 感谢您的理解和支持。

2024-10-12

嘉庚创新实验室智能计算中心系统升级工作已进入最后阶段。 为您后续更好的使用新系统, 我们将现在起至 2024 年 10 月 15 日 24 时设置为过渡期, 完成最后的用户和作业迁移工作, 现将该时期的相关工作公告如下:

  1. 即日起,您可以通过如下新的登录节点登录集群提交作业:

    ssh username@10.26.14.64
    

    或通过 SCOW 算力管理平台访问

    http://10.26.14.63:8080

    SCOW 的使用文档请参考: https://pkuhpc.github.io/OpenSCOW/docs/info

  2. 为方便您进行相应的作业调整和测试, 在过渡期您通过新登录节点提交的作业将不进行计费。 您在原登录节点提交的作业将继续按原有方式计费。

  3. 我们将以 15 日 24 时原系统中的账户余额作为您新系统的账户初始额度。 16 日零时起,系统将对进行的任务和新提交的任务正常计费, 计费标准不变。

  4. 特别提醒,15 日 24 时,我们将终止您通过旧登录节点提交且还在进行中的作业,请您提前做好安排。

  5. 请留意,升级后的集群需要使用分区和 qos 指定作业提交队列, 您可按登录后的提示信息对您的脚本进行修改。

使用过程如遇到问题,请及时向管理员提供反馈。