基于linux的集群系统（一）

　　本文是《基于LINUX的集群系统》系列文章的第一篇。作者就集群系统这一概念进行了概述，介绍了集群系统的发展以及国内外主要的集群系统解决方案。

　　第一台计算机问世已经半个世纪了，在这期间计算机技术经历了五次更新换代。更新换代的标志主要有两个：一个是计算机的器件，另一个是系统体系结构。从第一代到第五代计算机，器件发生了根本的变化：从电子管、晶体管发展到集成电路，而集成电路又经小规模、中规模、大规模、非常大规模等阶段发展到超大规模阶段。系统体系结构的不断改进，许多重要的概念的不断提出并且得到实现，推动计算机技术向更高的层次发展。从早期的变址寄存器、通用寄存器、程序中断和I/O通道等概念，到虚拟存储器、Cache存储器、微程序设计、系列机、基于总线的多CPU系统、向量处理机等概念，发展到64位RISC处理器、基于MPP、NUMA、集群等体系结构的可伸缩并行处理系统，计算机系统技术也取得了突飞猛进的发展。

　　将多台同构或异构的计算机连接起来协同完成特定的任务就构成了集群系统。早在二十世纪七八十年代，Digital equipment公司和Tandem计算机公司就开始了集群系统的研究与开发工作。

　　集群系统主要分为两种：

　　高可用性集群和高性能集群。

　　高可用性集群的主要功能就是提供不间断的服务。有许多应用程序都必须一天二十四小时地不停运转，如所有的web服务器、工业控制器、ATM、远程通讯转接器、医学与军事监测仪以及股票处理机等。对这些应用程序而言，暂时的停机都会导致数据的丢失和灾难性的后果。

　　高性能集群通过将多台机器连接起来同时处理复杂的计算问题。模拟星球附近的磁场、预测龙卷风的出现、定位石油资源的储藏地等情况都需要对大量的数据进行处理。传统的处理方法是使用超级计算机来完成计算工作，但是超级计算机的价格比较昂贵，而且可用性和可扩展性不够强，因此集群成为了高性能计算领域瞩目的焦点。

　　集群系统采用的操作系统主要有VMS、UNIX、WindowsNT和Linux。

　　美国DEC公司（Digital Equipment Corporation）开发的VMScluster系统开发最早，技术也很成熟，应用也很广泛，但由于VMS操作系统只能在DEC公司的VAX系列和Alpha系列服务器上运行，VMScluster的应用受到很大限制。

　　UNIX是服务器或工作站上普遍使用的操作系统，它运行稳定、安全性也比较好，因此许多大的公司都采用了基于UNIX的集群系统解决方案，如DEC、HP、SUN、IBM、NCR和DG等公司，其中在国内影响比较大的主要是DEC、HP、SUN和IBM。其中DEC公司的Trucluster系统提供了由4台Digital Alpha Server组成的集群系统，它集高可靠性、高可用性和易管理性于一身，是关键业务计算机系统的理想解决方案。

　　基于WindowsNT的集群系统解决方案厂商主要有Mircrosoft和DEC。Microsoft于1995年就开始了集群系统的开发工作。Windows 2000中已经增加了集群功能，该高可用性集群叫做WolfPack，也叫做Microsoft Cluster Server (MCS)。它主要是在企业级对基于Windows NT服务器的应用程序提供可用性和可升级性。WolfPack现在支持两个服务器，一个用来对用户提供服务，另一个作为备份服务器使用。Microsoft下一步的目标是将WolfPack支持的节点数扩展到16个。Wolfpack的缺陷在于：它只提供了两个节点的失败恢复功能，而没有采用复杂的应用程序资源管理功能，因此在一定程度上影响了系统的高可用性、高可靠性和可升级性。Wolfpack不能支持多种操作系统，而只能运行于Windows NT操作系统上。由于WindowsNT操作系统本身在稳定性、大型并行计算上与UNIX系统存在较大差距，目前主要在中小型系统上应用。但是随着WindowsNT系统走向成熟，基于WindowsNT的计算机集群系统将获得更广泛的应用。

　　九十年代末期，Linux操作系统不断走向成熟，它的健壮性不断增强，并且提供了GNU软件和标准化的PVM、MPI消息传递机制，最重要的是Linux在普通PC机上提供了对高性能网络的支持，这样就大大推动了基于Linux的集群系统的发展。

　　Turbolinux公司推出了能够显著地提高基于TCP/IP协议的多种网络服务的服务质量的高可用性集群系统Turbocluster。Red Hat也提供了基于Linux Virtual Server思想构建的高可用性集群系统Piranha。由Ericsson软件工程研究中心开发的高可用性集群系统Eddie的主要目的是提供一个商业级的，能提供较好的服务质量的web服务器的解决方案。

　　Platform公司开发的高可用性集群系统Lsf提供了分布式集群系统的解决方案，通过将物理上分离的多个集群连接在一起使使多个同构或异构的计算机能够通过局域网或广域网共享计算资源，并能够为用户提供对资源的透明访问。

　　高性能集群系统MOSIX为Linux核心增添了集群计算的功能。在MOSIX集群环境中，用户无需对应用程序进行修改，或将应用程序与库连接起来，或将应用程序分配到不同的节点上运行。MOSIX会自动将这些工作透明地交给别的节点来执行。

　　日本的F5公司开发出了高可用性集群BIG-IP，它是使用于本地网络站点或数据中心的高可用的、智能化的负载平衡产品，它提供了对网络流量的自动和智能的管理。与前几种集群系统不同的是，BIG-IP向用户提供的是一个即插即用设备，而其它的提供的都是软件方法。

　　IBM、Microsoft和Intel于2000年7月联合发布了一种高可用性服务器集群软件及硬件包，这种服务器集群的配置包括32台IBM Netfinity 8500R及Intel Pentium Ⅲ Xeon处理器，运行IBM的DB2 Universal Database和Microsoft Windows 2000 Advanced Server操作系统，每分钟可以执行440879次交易。这套系统面向数据密集的应用，特别是B2B、电子商务和企业资源规划领域。

　　在科学计算领域中，人们开始把注意力投向通过普通PC机或工作站的集群来代替昂贵的超级计算机。比较成功的例子是高性能集群系统Beowulf，它最初是由NASA的Goddard Flight Center进行开发的，主要目的是支持大规模的科学计算问题，如地球和太空科学面临的一些计算问题。

　　国内也有不少公司进行了集群系统的研究和开发工作。

　　联想公司在1999年9月推出了用于分布式高性能计算的NS10000高性能集群服务器，该系统是一个四节点的系统，主要基于联想万全4500R服务器，以总体成本相对较低的设备组合，足以替代传统RISC小型机和中型机的工作，而价格仅为市场上同等性能小型机的1/2--1/4。

　　朗新公司也推出了类似于Turbocluster的高可用性集群系统LongShine Cluster Server。

　　1999年9月20日，中国第一家专业面向Linux高端应用市场的集群网络有限公司推出了国内首例Linux安全集群系统。它是国内第一个通过公安部认证的安全Linux系统，而其集群技术也已应用于诸多国际著名网站，如Linux的门户www.linux.com、英国国家JANET Cache网、奥地利的入口站点和瑞士电信等。其核心代码也已被纳入美国Red Hat Linux发布版的核心。

　　中国自主开发研制的集群式高性能计算机集群系统"自强2000-SUHPCS"于2000年9月在上海大学问世。这一系统的峰值速度达到每秒3000亿次浮点操作。是当前中国国内集群式高性能计算机系统中速度最快的。

　　典型集群系统介绍之一　

　　在《基于Linux的集群系统》系列文章的第二部分，作者将向我们介绍几个最典型的集群系统。

　　1. Lsf

　　如何管理各种各样的计算资源(如：CPU时间、内存空间、网络带宽、应用程序等)是许多企业当前都很头疼的问题。尤其是对于那些员工遍布全球的公司而言，如何充分利用有限的计算资源是非常关键的问题。由platform公司开发的lsf 多集群系统使多个异构的计算机能够通过局域网或广域网共享计算资源，并能够为用户提供对资源的透明访问。Lsf现在主要支持以下三种大规模资源共享：

　　一个大企业中的多个部门，每个部门可以有一个或多个集群，这样就使得部门内部和部门之间可以共享资源。

　　较小部门的数据中心。大的昂贵的计算资源如超级计算机可以透明地与远方较小的部门直接进行共享。

　　通过松散连接的站点共享资源。

　　Lsf将多个集群连接在一起，一个集群往往是企业中的一个部门，每个集群中有一个主控机，此主控机负责收集该集群系统中的各台主机的负载信息，并且根据各主机的负载信息情况对作业进行调度。各个集群系统之间根据一定的策略进行资源共享。在每个主控机上定义了该集群能共享哪些集群系统中的资源。当用户发送了一个任务请求时，lsf系统能将此任务发送到对应的资源所在地，并根据调度策略选择负载较轻的机器对此任务进行处理。当多个用户请求同一个资源时，根据用户的请求优先级来确保优先级高的用户的紧急任务能首先得到满足。Lsf还具有以下特点：

　　提供了增强的计算能力。

　　通过全局资源共享，用户可以访问各种各样的计算资源，许多闲置的计算机现在都可以充分利用起来进行任务处理，许多机器也可以并行地执行同一个任务，这样就大大增强了用户的计算能力。

　　lsf提供了用户可配置的安全策略。

　　通过让用户使用RFC931协议、Kerberos、和DCE认证等策略，系统保证了远方的任务来自授权的用户。

　　每一个集群都是一个自治的系统。

　　每个集群中的主控机的配置文件中记录了如下信息：如允许在多个集群系统之间传输的任务的数量与类型，允许在多个集群之间共享资源的用户名。

　　提供非共享的用户账号和文件系统。

　　当任务在多个集群之间进行传输时，用户的账号可以根据配置文件进行映射。为了支持异构的系统，lsf通过在任务执行前后将文件在集群系统之间传递来提供对非共享的文件系统的支持。

　　良好的可扩展性。

　　在单一的集群系统中通过主控机进行管理，所有的配置信息都在主控机上，多个集群系统之间信息的传递主要是与主控机有关，而与集群中的其它主机无关。因此lsf的集群能非常容易地扩展到成百甚至上千台。

　　lsf系统支持多种操作系统平台。
　　
　　如主要的UNIX平台：Sun Solaris、 HP-UX、 IBM AIX、 Digital UNIX/Compaq Tru64 UNIX、SGI IRIX以及 Red hat Linux、 Windows NT、Windows 2000等。
　　2. TurboCluster

　　TurboCluster是一个企业级的集群方案，它允许在多个计算机上构建高可用的、可扩展的网络。它支持Intel和Alpha芯片，支持Linux 、Windows NT 和Solaris操作系统平台。使用TurboCluster系统可以显著地提高基于TCP/IP协议的多种网络服务的服务质量，这些服务包括Web、Mail、News和Ftp等。TurboCluster具有良好的可用性、可扩展性和可管理性，集群内部的实际服务器的数量可以扩充到无限台。TurboCluster是一种基于软件的集群系统解决方案，它还能够支持异构的网络环境。它的结构如图2-1所示。

　　当客户向集群系统发送一个请求时，该请求首先到达高级流量管理器，高级流量管理器通过一定的调度策略将此请求转发到集群中的某一台实际服务器上对此请求进行处理，最终的回应请求将直接发送给客户。由于最终的回应请求没有通过高级浏览管理器而是直接发送给客户，这样大大减轻了高级浏览管理器上的负载，从而降低了瓶颈产生的可能。TurboCluster中采用的调度策略有：轮回(Round Robin)、加权轮回(Weighted Round Robin)、最少连接(Least Connection)。为了减少高级流量管理器产生失效的可能，TurboCluster为高级流量管理器准备了一个备份机。该备份机不断询问管理器来确认它正在正常工作，一旦发现主管理器已经失效，备份机将接替它继续工作。

　　

　　图2-1 turbocluster结构图

　　TurboCluster具有如下一些增强的性能。

　　通过heartbeat在备份机上监测流量管理器的运行状态来提供更高的可用性。

　　对不可预测的系统或应用程序的失效进行自动管理。

　　提供动态的负载平衡，它能够消除瓶颈并且处理峰值负载。

　　高级流量管理器只转发已经授权的请求，通过在实际的应用程序服务器的前端增加虚拟防火墙来提高网络的安全性。

　　TurboCluster对外只显现出流量管理器的IP，而集群系统中的实际服务器的IP地址对外界而言是不可见的。

　　当实际服务器正在对外界提供服务时就可以对它进行维护工作。