某客户处使用微软的Hyper-V提供虚拟化服务,硬件架构采用4台高性能物理主机安装Windows 2008 R2操作系统搭建4个节点的故障转移群集,并连接两台光纤通道磁盘阵列柜作为群集存储。
某日收到平台SCOM短信报警,数个网站应用无法访问,由于都涉及到平台中的虚拟机,初步判定Hyper-v群集发生故障,立即检查群集各服务器,发现节点1服务器无法连接,登录节点2服务器打开故障转移群集管理器,发现节点1已退出群集,原运行在节点1的虚拟机迁移到到其他节点运行。
查看故障转移群集日志:
2012/5/24 20:49:26 描述:网络“Public”上群集节点“bs01”的群集网络接口“bs01 - Pubilc”出现故障。请运行“验证配置”向导检查网络配置。如果此情况持续出现,请检查与网络适配器相关的硬件或软件错误。同时还要检查节点所连接的任何其他网络组件(如集线器、交换机或网桥)中的故障。
2012/5/24 20:49:35 描述:已从活动故障转移群集成员身份中删除群集节点“bs01”。可能已在该节点上停止群集服务。这可能还由于该节点已与故障转移群集中的其他活动节点失去通信所致。
查看系统日志:
2012/5/24 21:30:53描述:上一次系统的 20:49:34 在 ?2012/?5/?24 上的关闭是意外的。
2012/5/24 21:30:53 描述:计算机已经从检测错误后重新启动。检测错误: 0x0000009e (0xfffffa802a735b30, 0x000000000000003c, 0x0000000000000000, 0x0000000000000000)。已将转储的数据保存在: C:\Windows\MEMORY.DMP。报告 ID: 052412-208230-01。
综上由于未知原因造成节点1服务器蓝屏而与其他节点失去通信,群集自动将其从群集中删除,原运行在节点1上的虚拟机发生了迁移,造成业务短暂中断。
使用调试工具Windbg分析操作系统蓝屏错误产生的dmp文件,结果显示造成系统蓝屏的文件为netft.sys,查询资料netft.sys为系统文件,为微软故障转移群集的虚拟网卡驱动程序。
为避免对其他节点服务器造成影响,将节点1服务器暂时退出故障转移群集后,更新服务器的网卡至最新稳定版驱动,重新设置虚拟机网卡后再次加入Hyper-v故障转移群集,测试运行一个月无故障发生,恢复正常使用。
故障处理以恢复业务为首要目标,分析故障原因后采取相应方式处理。此次故障也证明了群集为业务提供了高可用性。
自由广告区 |
分类导航 |
邮件新闻资讯: IT业界 | 邮件服务器 | 邮件趣闻 | 移动电邮 电子邮箱 | 反垃圾邮件|邮件客户端|网络安全 行业数据 | 邮件人物 | 网站公告 | 行业法规 网络技术: 邮件原理 | 网络协议 | 网络管理 | 传输介质 线路接入 | 路由接口 | 邮件存储 | 华为3Com CISCO技术 | 网络与服务器硬件 操作系统: Windows 9X | Linux&Uinx | Windows NT Windows Vista | FreeBSD | 其它操作系统 邮件服务器: 程序与开发 | Exchange | Qmail | Postfix Sendmail | MDaemon | Domino | Foxmail KerioMail | JavaMail | Winwebmail |James Merak&VisNetic | CMailServer | WinMail 金笛邮件系统 | 其它 | 反垃圾邮件: 综述| 客户端反垃圾邮件|服务器端反垃圾邮件 邮件客户端软件: Outlook | Foxmail | DreamMail| KooMail The bat | 雷鸟 | Eudora |Becky! |Pegasus IncrediMail |其它 电子邮箱: 个人邮箱 | 企业邮箱 |Gmail 移动电子邮件:服务器 | 客户端 | 技术前沿 邮件网络安全: 软件漏洞 | 安全知识 | 病毒公告 |防火墙 攻防技术 | 病毒查杀| ISA | 数字签名 邮件营销: Email营销 | 网络营销 | 营销技巧 |营销案例 邮件人才:招聘 | 职场 | 培训 | 指南 | 职场 解决方案: 邮件系统|反垃圾邮件 |安全 |移动电邮 |招标 产品评测: 邮件系统 |反垃圾邮件 |邮箱 |安全 |客户端 |