LSF 服务与进程
最后更新于
最后更新于
集群中的每个主机上都运行多个 LSF 进程。 正在运行的进程的类型和数量,取决于主机是主节点还是计算节点。
LSF 主机根据它们在集群中的角色,运行各种守护进程。
守护程序 | 角色 |
mbatchd | 作业请求与分配 |
mbschd | 作业调度 |
sbatchd | 作业执行 |
res | 作业执行 |
lim | 节点信息 |
pim | 作业进程信息 |
elim | 动态负荷指标 |
在主节点上运行的主批处理守护程序。 负责系统中作业的总体状态。
接收作业提交和信息学查询请求。管理队列中保留的作业。由 mbschd 确定将作业分配给主机。
在主节点上运行的主批处理调度守护程序。 与 mbatchd 一起使用。
根据作业要求,策略和资源可用性制定调度决策。 将调度决策发送到 mbatchd
在每个服务器主机(包括主主机)上运行的从属批处理守护程序。 从 mbatchd 接收运行作业的请求,并管理作业的本地执行。 负责执行本地策略并维护主机上的作业状态。
sbatchd 会为每个作业分出一个子sbatchd。 子 sbatchd 运行一个 res 实例,以创建作业在其中运行的执行环境。 作业完成后,子sbatchd 退出。
在每个服务器主机上运行的远程执行服务器(RES)。 接受远程执行请求,以提供清晰,安全的作业和任务的远程执行。
在每个服务器主机上运行的负载信息管理器(LIM)。 收集主机负载和配置信息,并将其转发到在主节点上运行的主LIM。报告由 lsload 和 lshosts 显示的信息。
当 LIM 启动或 CPU(ncpus)数量更改时,将报告静态索引。
在主节点上运行的 LIM。从集群中的节点上运行的 LIM,接收负载信息。
将负载信息转发到 mbatchd,后者将信息转发到 mbschd 以支持调度决策。如果主 LIM 不可用,则候选主节点上的 LIM 将自动接管。
在每个服务器主机上运行的进程信息管理器(PIM)。 由 LIM 启动,它会定期检查 PIM 并在 PIM 挂掉后重新启动。
收集有关主机上运行的作业进程的信息,例如作业使用的 CPU 和内存,并将该信息报告给 sbatchd。
外部LIM(ELIM)是一个可在站点定义的可执行文件,用于收集和跟踪自定义动态负载索引。 ELIM 可以是 Shell 脚本或编译的二进制程序,它们返回您定义的动态资源的值。 ELIM 可执行文件必须命名为 elim.anything,并且位于 LSF_SERVERDIR 中。