LSF 介绍

IBM Spectrum LSF ("LSF", load sharing facility 的简称) 软件是行业领先的企业级软件。LSF 将工作分散在现有的各种 IT 资源中,以创建共享的,可扩展的和容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 平衡负载和分配资源,并提供对这些资源的访问。

LSF 提供了一个资源管理框架,可满足您的工作要求,找到最佳资源来运行该工作并监视其进度。 作业始终根据主机负载和站点策略运行。

Cluster(集群)

运行 LSF 的一组计算机(主机),它们作为一个单元一起工作,结合了计算能力,工作量和资源。 集群为计算资源网络提供单系统映像。

可以通过多种方式将主机分组到集群中。 集群可以包含:

  • 单个管理组中的所有主机

  • 子网中的所有主机

Hosts(主机)

集群中的主机执行不同的功能。

  • Master host (主节点)

    LSF 服务器主机,充当集群的整体协调器,负责所有作业的调度和分配。

  • Server host (服务主机)

    提交并运行作业的主机。

  • Client host (客户主机)

    仅提交作业和任务的主机。

  • Execution host (执行主机)

    运行作业和任务的主机。

  • Submission host (提交主机)

    从中提交作业和任务的主机。

Job(作业)

作业是在 LSF 系统中运行的工作单元。 它是一个提交给 LSF 来执行的命令。 LSF 则根据配置的策略,来调度,控制和跟踪作业。

作业可以是复杂的问题,模拟方案,大规模计算或任何需要计算力的事物。

Job slot(作业槽位)

作业槽是一个存储区,在 LSF 系统中将单个工作单元分配到该存储区中。

主机可以配置有多个作业槽,并且您可以从队列中分派作业,直到所有作业槽都被填满。 您可以将作业槽与集群中的 CPU 总数相关联。

Queue(队列)

集群范围内的作业容器。 所有作业都在队列中等待,直到将它们调度并分配到主机为止。

队列不对应单个主机; 每个队列都可以使用集群中的所有服务器主机,或服务器主机的已配置子集。

将作业提交到队列时,无需指定执行主机。 LSF 会将作业分派到集群中,最佳可用的执行主机来运行该作业。

队列执行不同的作业调度和控制策略。

Resources(资源)

资源是集群中可用于运行作业的对象。 例如,资源包括但不限于主机,CPU 槽和许可证。

最后更新于