王美洁

4.2 计算任务管理

这是一篇手册占位文档,后续将整理成围绕集群、SLURM 和批量任务的工程化教程。

适合对象

  • 刚开始用集群跑作业的同学
  • 已会提交任务但缺少批量管理经验的同学

前置知识

  • Linux 基础
  • 基础 DFT 工作流

计划内容

  • 集群环境介绍
  • SLURM 基础
  • 批量投递与监控
  • 失败任务重启
  • 日志排查与目录规范

可整合的已有文章

待补材料

  • 作业脚本模板
  • 批量重启脚本
  • 常见报错示例