常见问题
计费规则
平台计费方式是怎样的?
平台采用核秒计费的方式,根据用户提交的作业所使用的资源时长进行计费。
详情请参考 计费中心-计费规则。
独占节点计费
当您的作业需要独占节点时,平台会根据节点的所有核心数进行计费。
即您的作业提交命令包含 #SBATCH --exclusive
独占节点参数时,平台会根据独占节点总核心数进行计费。
作业
作业计算完成后有时会多 1 秒?
这是因为在计算作业结束后,系统会有一个延时处理阶段,以确保作业正确终止。
例如,如果作业脚本设定的运行时长为 60 秒,实际显示的作业结束时间可能为 61 秒。
集群使用问题解答
1、集群新注册用户提交作业时出现
答:这个“invalid account”问题的出现是因为当前注册用户太多,多集群正在同步账户信息,出现这个问题一般等待半个小时左右即可正常提交作业。
2、用户算例上传下载问题
答:用户觉得上传,下载数据比较慢,可以事前把相关数据打成压缩包,再进行下载。
集群内压缩可以先勾选要压缩的文件夹,鼠标右键勾选压缩所选文件
3、我本地windows与linux文件格式怎么转换
答:在超算集群进行一些脚本提交,或者是一些转换处理操作时,有时候会提示出现**\r\n**的问题,类似如下:
此类问题的出现是windows上的一些换行,空格,回车等字符,在linux不被识别。
此时需要在终端执行命令:dos2unix *
转换所有的文件,将文件从windows的格式转换为linux。
4、文件名问题
有些客户上传到超算集群的文件名,会有中文,但是这在linux系统中是一个非常严重的问题,会导致一些文件识别不了,所以,推荐客户在文件上不要有中文以及中文符号(比如括号,斜杠)。
5、集群客户配置ssh登陆吗?
答:因为vpn配置复杂且在线人数有限,所以仅支持正式用户提供vpn并配置密钥进行ssh登录。
6、我想自己编译一个软件,我应该怎么去编译?
答:集群里各个节点都是联网的,可以进行相关包的下载,如果需要到计算节点上进行编译工作,可以命令行执行
srun -N 1 -n 32 -t 1:00:00 --pty bash
这个命令是临时开通一个持续一个小时,可用核心数为32核心的会话,到计算节点上。
之后再在计算节点上进行编译。
7、我登陆咱们集群之后,怎么用命令查看节点配置,跟你们给我推荐的配置不一样啊?
答:我们集群登录节点跟计算节点是分开的,您进入终端后,所在位置是登陆节点,如果您需要查看计算节点的配置信息,可以命令行执行
srun -N 1 -n 1 -t 1:00:00 --pty bash
来查看配置信息。
8、我有好多个同门师兄弟,我想让他们也使用这个超算,我们期望是可以计费到一个账号上。
答:天玑智算云平台提供了子账号自注册功能,可以通过个人中心的子账号模块来进行新增子用户,子用户消耗的核时是计费在了主账号上,充值只充值一个账号,方便大家进行核时的计费对账。
9、我跑作业提示一直在排队,我怎么查看每个计算节点剩余的核心数,然后根据剩余核心数来修改我的脚本,提交计算?
您在终端中输入
sinfo -o "%C %n"
即可查看当前集群所有节点剩余可用核心数(第二竖列)
10、我有一个规模比较大的计算,我不想让他跟别的客户的作业挤在一个节点,我怕他们的作业影响到我的作业,我应该怎么办?
答:slurm对于此类情况给出了独占节点的命令,您的作业提交命令中包含 #SBATCH --exclusive
独占节点参数时,所提交的作业就会独占一整个节点计算,此节点不会再接收其他客户作业,相应的,独占节点的费用也是按照满核心收费的。
11、我使用sinfo命令看到有好多空闲的节点,我想让我的作业在哪些单独空闲的作业节点上跑,但是我又不想使用独占节点的命令,有什么办法吗?
答:可以将作业设置指定节点计算,或者是排除节点,作业不在某些节点上计算。
指定节点计算:可以在脚本里面 #SBATCH 字段下 添加一行 #SBATCH --nodelist=nodexxx 来指定节点,xxx改为自己作业要算的节点;
排除节点计算:可以在脚本里面 #SBATCH 字段下 添加一行#SBATCH --exclude=nodexxx 来排除某些节点,让作业不在这些节点上计算。
12、我用咱们的8576集群,为什么每一次提交作业,都会排队一分钟左右?
答:qos策略限制,集群也在调度资源。
13、正式用户与测试用户有什么区别呢?
测试用户限制最大提交作业数为5,最大使用总的核心数为224(也就是两个节点)
正式用户不做限制