LSF 介绍
最后更新于
最后更新于
IBM Spectrum LSF ("LSF", load sharing facility 的简称) 软件是行业领先的企业级软件。LSF 将工作分散在现有的各种 IT 资源中,以创建共享的,可扩展的和容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 平衡负载和分配资源,并提供对这些资源的访问。
LSF 提供了一个资源管理框架,可满足您的工作要求,找到最佳资源来运行该工作并监视其进度。 作业始终根据主机负载和站点策略运行。
运行 LSF 的一组计算机(主机),它们作为一个单元一起工作,结合了计算能力,工作量和资源。 集群为计算资源网络提供单系统映像。
可以通过多种方式将主机分组到集群中。 集群可以包含:
单个管理组中的所有主机
子网中的所有主机
集群中的主机执行不同的功能。
Master host (主节点)
LSF 服务器主机,充当集群的整体协调器,负责所有作业的调度和分配。
Server host (服务主机)
提交并运行作业的主机。
Client host (客户主机)
仅提交作业和任务的主机。
Execution host (执行主机)
运行作业和任务的主机。
Submission host (提交主机)
从中提交作业和任务的主机。
作业是在 LSF 系统中运行的工作单元。 它是一个提交给 LSF 来执行的命令。 LSF 则根据配置的策略,来调度,控制和跟踪作业。
作业可以是复杂的问题,模拟方案,大规模计算或任何需要计算力的事物。
作业槽是一个存储区,在 LSF 系统中将单个工作单元分配到该存储区中。
主机可以配置有多个作业槽,并且您可以从队列中分派作业,直到所有作业槽都被填满。 您可以将作业槽与集群中的 CPU 总数相关联。
集群范围内的作业容器。 所有作业都在队列中等待,直到将它们调度并分配到主机为止。
队列不对应单个主机; 每个队列都可以使用集群中的所有服务器主机,或服务器主机的已配置子集。
将作业提交到队列时,无需指定执行主机。 LSF 会将作业分派到集群中,最佳可用的执行主机来运行该作业。
队列执行不同的作业调度和控制策略。
资源是集群中可用于运行作业的对象。 例如,资源包括但不限于主机,CPU 槽和许可证。