|
高可用集群帮你获得一个高可用的系统,但是仅仅有一个高可用的系统不代表你已经得到了一个稳定的后台.<br>
<br>
抽象到不分集群的层面,从实际操作的角度来看,下面的这个checklist 可以帮助大家在规划,部署,施工,服务一套系统,甚至于作故障检测都有一定的便捷.<br>
<br>
BTW: 所谓checklist 就是检查列表,就是帮助你在考虑和部署复杂的系统的时候,提醒你需要注意的不可漏掉的一张清单.<br>
<br>
<br>
<br>
稳定= <br>
<br>
<br>
稳定的硬件设备 (比如用厂商提供的工具或自己搞来的测试工具和压力测试工具,在整个系统部署前反复确认你的设备的稳定性)<br>
+<br>
稳定的硬件连接 (跑几轮测试来检查连接,目测和软件测试相结合,并采取措施规范连接方式,防止日后得不正常行为对联接的破坏)<br>
+<br>
稳定的服务器SYSTEM ROM(检查设备厂商的站点,upgrade到最新的system ROM, 并保持track)<br>
+<br>
稳定的板卡的firmware(同上)<br>
+<br>
稳定版本的Linux发行(比如redhat as3 U7或sles 9 SP3)<br>
+<br>
稳定版本的kernel (同上,并保持对redhat bugtrack或sles bugtrack 数据库的定期回访)<br>
+<br>
稳定版本的 driver( 同上)<br>
+<br>
稳定版本的LVM( 同上)<br>
+<br>
稳定版本的Filesystem 模块(同上)<br>
+<br>
稳定版本的跑在上面这些平台上的应用 (运行应用厂商提供的测试工具,比如Oracle test或者自己搞来的测试工具, 并保持对这些上层应用的bug database的回访)<br>
<br>
<br>
这是一个日常项目中提供你帮助的checklist.<br>
<br>
按照这个checklist 去检查你的系统的所有组成部分,得到一个组合之后,lockdown 掉,根据你上层应用的变化速度,建立一个周期性的lifecyle management.<br>
|
|