1、负责HPC的并行计算作业调度系统、节点管理、存储系统、Infiniband网络等资源调度策略的实现;
2、负责HPC的并行计算作业调度系统的问题的定位和解决。
1、三年以上相关工作经验,本科及以上学历,计算机及相关专业;
2、熟悉操作系统底层知识,内核及文件系统,RDMA等底层技术;
3、熟练使用C/C++等编程语言,熟悉Linux下软件开发流程;
4、熟悉intel、GNU编译器,有一定Linux系统并行程序编译和调试能力;
5、熟悉HPC并行计算原理和相关并行框架(OpenMP、MPI等),有HPC并行计算程序开发及优化经验者优先;
6、熟悉HPC调度软件(SLURM 、PBS、LSF等),有大规模部署及维护经验者优先;
7、具备丰富的分布式系统运维、监控和性能分析经验;
8、熟练掌握Shell脚本编程,同时掌握Python、Lua等脚本语言的优先;
9、熟悉Slurm等作业调度系统和集群管理技术,了解Docker、Singularity等虚拟化技术;
10、良好的学习、沟通与表达能力,良好的团队协作精神与责任感,思维敏捷,踏实肯干,积极主动;
11、有本领域架构设计或开源社区代码贡献或相关产品研发经验者优先。
—— 填写试用申请,并注册平台账户,专属客户经理将为您申请2000核时或200元卡时免费试算资源 ——