分区规则和收费标准¶
收费标准¶
账户类型划分¶
嘉庚智算中心按经费支付来源分为内部账户和外部账户。前者为经费直接由厦门大学或嘉庚创新实验室支付或划转至嘉庚智算中心;后者为除前者外的其他经费支付对象,含厦门大学或嘉庚创新实验室在职人员和学生通过个人银行转账的。
内部账户和外部账户仅存在计费价格差别,其他服务内容均一致。
具体收费标准¶
按照不同账户类型和提交作业的不同分区(详见下文队列划分部分),收费标准见下表:
类别 | CPU (元/核时) | GPU (元/卡时) | FAT (元/核时) |
---|---|---|---|
内部账户 | 0.06 | 9.00 | 0.20 |
外部账户 | 0.08 | 12.00 | 0.30 |
充值赠送比例¶
中心根据充值情况按照比例提供一定的返赠优惠,赠送优惠同一自然年度内可累计。
- 充值 4.9 万元(不含)至 9.9 万元(含): 按照实际充值金额返赠 10% 的机时费用
- 充值 9.9 万元(不含)至 19.9 万元(含): 按照实际充值金额返赠 25% 的机时费用
- 充值 19.9 万元(不含)至 49.9 万元(含): 按照实际充值金额返赠 50% 的机时费用
- 充值 49.9 万元以上: 按照实际充值金额返赠 100% 的机时费用
队列划分¶
嘉庚智算中心目前按照硬件类型设定了如下的分区,请提交时通过 --partition=<分区名>
或 -p <分区名>
选项进行指定。
分区名 | 硬件类型 |
---|---|
cpu |
CPU |
gpu |
GPU |
fat |
大内存计算节点 (胖节点) |
资源分配关系¶
为使得实际的资源利用与计费标准相匹配(按单位时间使用的 CPU 核数或 GPU 卡数计费),这里我们将各个分区硬件资源绑定关系列出如下。
- CPU: 用户申请每个 CPU 核至多申请 4 GB 内存资源
- GPU: 用户申请每张 GPU 卡至多申请 8 个 CPU 核/192 GB内存
- FAT: 用户申请每个 CPU 核至多申请 32 GB 内存资源
特别地,为避免资源浪费,GPU 队列不允许仅申请 CPU 资源。
同时,对于每种硬件资源,用户可使用内存的上下限也列出如下。
硬件类型 | 每节点配置 | 每核卡默认申请内存 | 每核内存限制 | 可访问的内存上限 |
---|---|---|---|---|
CPU | 64核/256G内存 | 1 GB | 最多 4 GB | 251 GB |
GPU | 64核/8张GPU卡/1.5T内存 | 16 GB | 最多 24 GB | 1500 GB |
FAT | 64核/2T内存 | 8 GB | 最多 32 GB | 2000 GB |
以下进行举例说明。
CPU¶
按照用户每个节点所申请 CPU 核数分配内存上限。
申请 CPU 核数 | 1 | 2 | 4 | 8 | 16 | 32 | 64 |
---|---|---|---|---|---|---|---|
内存上限 (GB) | 4 | 8 | 16 | 32 | 64 | 128 | 251 |
GPU¶
申请 GPU 资源需要绑定与每个节点上所申请卡数(即 --gres=gpu:N
中的 N
)相匹配的 CPU 核数和内存资源。
申请 GPU 卡数 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
CPU 核数上限 | 8 | 16 | 32 | 64 | 40 | 48 | 56 | 64 |
内存上限 (GB) | 192 | 384 | 576 | 768 | 960 | 1152 | 1344 | 1500 |
大内存计算节点(胖节点)¶
按照用户每个节点所申请 CPU 核数分配内存上限。
申请 CPU 核数 | 1 | 2 | 4 | 8 | 16 | 32 | 64 |
---|---|---|---|---|---|---|---|
内存上限 (GB) | 32 | 64 | 128 | 256 | 512 | 1024 | 2000 |
当进行不符合资源绑定关系的任务提交时,用户会收到类似如下的提示:
$ srun -N 1 --ntasks-per-node=12 --gres=gpu:2 --mem=500G -p gpu -A ai4ec sleep 20000
srun: error: The max allowed memory per node for a 2 GPU-cards-per-node job is 384GB.
srun: error: The 500GB memory per node you have requested exceed the limit.
srun: error: Please reduce the memory in requirement, or adjust your request for GPUs accordingly
srun: error: 各节点内2卡作业的最大允许内存是384GB, 您所申请的500GB已超过限制。
srun: error: 请您调低申请内存大小, 或者增加GPU的申请。
srun: error: 详情请参阅文档 https://ai4ec.ac.cn/ikkem-hpc/doc/introduction/partition/#_7
srun: error: Unable to allocate resources: Unspecified error
请根据报错信息的提示,对应上述规则调整资源的申请。例如上述的例子中申请了 1 节点 2 卡 GPU 作业,申请了 12 个 CPU 核,但申请了 500 GB 内存,超出了内存资源的 2/8 (即 384 GB),故在提交时被拒绝。
如用户需要顺利提交,则需要将内存上限控制在 384 GB 以内,或申请 3 张卡以使用更多内存资源。
资源使用限制——QoS¶
为更加精准地对任务进行管理,我们引入了服务质量(QoS)对任务的时长和优先级进行了限制,请提交时通过 --qos=<QoS名>
选项进行指定。
QoS名 | 优先级 | 任务最长运行时间 |
---|---|---|
normal |
50 | 2天 (48h) |
long |
25 | 4天 (96h) |
注意
超过 4 天的任务需提前 1 天邮件告知用户名和 jobID
,延长后原则上不超过 10 天。