前言
停更与迁移通知
本文档网站于 2022-10-01 之后,将不再更新,仅保留用于访问。
新版文档网站,暂定用 github pages 托管,如果访问失效,请访问仓库地址,获取最新信息。
仓库地址:https://github.com/baiyongan/lsf-handbook
阅读地址:https://baiyongan.github.io/lsf-handbook
更详细的信息,也可通过下页的迁移通知进行了解,谢谢!
内容简介
主要内容是 IBM 官方 LSF manual 的文档翻译,具体内容涉及 LSF 的产品介绍、安装升级、用户操作、作业调度、集群运维、功能开发及拓展等。
其次结合译者的工作需求,会有一些相关知识点的增补,与实际操作经验的总结。大致包含 Linux 运行环境的常见服务配置、vim 编辑器操作、系统性能调优、队列日志分析、EDA 作业优化、同类调度器(Slurm/PBS)的功能对比等等。
重点章节
依照 Part > Chapter > Section > Subsection > Article 的行文结构
Part I 入门介绍篇
chapter1 LSF 介绍
重点: LSF 快速入门章节
chapter2 安装、升级与迁移
Part II 基础操作篇
chapter3 用户操作基础
重点:文件目录,LSF 守护程序与进程,作业生命周期,调度策略
chapter4 管理员操作基础
重点:重要配置文件、服务的启动,资源管理等,日志排错
Part III 作业调度篇
chapter5 作业调度管理
重点:LSF daemons 相关, bsub 命令参数及功能
Part IV 集群运维篇
chapter6 集群维护管理
重点:
chapter7 参考文档
重点:
Part V 功能拓展篇
chapter8 LSF 拓展
chapter9 最佳实践与建议
chapter10 LSF licence scheduler
Part VI 经验总结篇
chapter11 Linux 操作进阶
重点:常见服务操作、免密、文件服务器、bash 脚本编程规范、vim 编辑器等
chapter12 实际实施经验
重点:日志分析,高级调度策略实施等
chapter13 调度器产品对比、行业领域结合等
重点:Slurm,PBS等
译作初衷
IBM 旗下的作业调度系统 LSF, 作为一款在 HPC 领域内应用广泛的商业调度器,其 manual 是针对多种商业客户而编写的,文档受众主要是各大中小型企业的集群管理者,其次则为数量更多的集群使用者,与少部分功能开发者。但实际上,因为每个企业 / 非企业级用户的软硬件基础架构,与业务场景会有不同,所以,作为集群的管理者,除了需要熟悉官网中介绍的功能操作外,也有必要结合实际的工作需求,基于所在行业,进行实际经验的总结与梳理等。
故而,本 LSF 中文手册是从集群管理及二次开发者的角度出发,基于 LSF manual,进行的一些翻译与增补,鉴于译者水平精力有限,出现错误纰漏之处在所难免,希望读者不吝批评指正。
版本
基于 版本为 LSF 10.1.0 的 LSF manual。
最后更新于