vSAN 集群磁盘更换:故障排查与恢复实录

vSAN 集群单块 HDD 故障如何处理?本文记录从 iDRAC 告警发现、故障磁盘移除、新盘添加到集群恢复的完整过程,FTT=1 模式下数据零丢失。

...

记录一次 vSAN 集群中磁盘故障的发现、处理和恢复全过程。

故障发现

环境背景

  • 架构:3 节点 vSAN 集群(ESXi 10.11, 10.12, 10.13)
  • 状态:FTT=1(副本模式),未启用去重与压缩
  • 故障点:10.11 主机 Disk 15 (HDD) 预警故障(PDR16)

iDRAC 告警

收到idrac的邮件告警通知,报告预测性失败:

iDRAC 邮件告警通知

iDRAC 后台运行状况显示警告状态:

iDRAC 运行状况警告

查看 iDRAC 最近的日志记录:

iDRAC 最近日志

可以看到磁盘 15 出现告警,磁盘详细信息中预测到故障:

磁盘 15 告警详情

vCenter 告警

登录 vSphere 可以看到 vSAN 集群出现告警:

vCenter vSAN 集群告警

vSAN 集群 → 监控 → vSAN-Skyline 运作状况 → 物理磁盘提示出现异常:

Skyline 物理磁盘异常

Skyline 运作状况中物理磁盘异常的详细提示:

  • 主机:192.168.10.11
  • 磁盘:Local SEAGATE Disk (naa.5000c500ee6fd67b)
  • 整体运行状况:警告
  • 元数据运行状况:正常
  • 操作运行状况:警告
  • 在 CMMDS/VSI 中显示:是/是
  • 操作状况说明:即将发生永久磁盘故障,数据撤出已完成
  • 建议:如果磁盘属于启用去重的磁盘组,请将该磁盘组从 vSAN 移除,替换出故障的磁盘,然后重新添加该磁盘组。否则,请只移除出故障的磁盘,然后添加替换磁盘。

UUID:52eb9b95-3ca8-5671-9b54-2c93e6963b0b

Skyline 磁盘故障详情

故障确认

判断是否启用去重

确认磁盘是否属于启用去重的磁盘组:

vsan服务

空间效率显示"无",即没有开启去重和压缩。

空间效率状态

查看磁盘组状态

在 vSAN 集群 → 配置 → 磁盘管理中可以看到 192.168.10.11 这台服务器运行状况显示不正常:

磁盘管理总览

点击 192.168.10.11 就能看到其中一个磁盘组显示不正常:

磁盘组状态

展开异常的磁盘组,其中一块磁盘的运行状况显示"已撤出",然后可以查看更多详情和物理位置:

磁盘组详情

磁盘物理位置:Enclosure 16 Slot 15

更换硬盘

移除故障磁盘

选择故障的磁盘,移除磁盘,确认操作:

提示:因为本身是已撤出状态,虚拟机数据早已被迁移,大胆移除即可。

移除故障磁盘确认

物理更换

到机房更换硬盘前先闪灯确认物理位置,确认无误后拔出异常的硬盘,将新的硬盘插入。

iDRAC 验证

更换硬盘后去 iDRAC 确认硬盘状态,已经恢复正常:

iDRAC 运行状况良好

iDRAC 物理磁盘界面

重新配置

查看新硬盘状态

回到 vSAN 可以看到新硬盘已经有显示,但声明状态是"不合格",还不能添加到磁盘组内:

新硬盘状态 - 不合格

清除磁盘分区

对这块新换上去的磁盘进行清除分区操作:

选择磁盘清除

清除磁盘分区

清除分区后在 vSAN 界面没有反应。先记下磁盘naa.5000c500ca5f9073

主机存储设备清除

去 192.168.10.11 主机的配置 → 存储设备,搜索 naa.5000c500ca5f9073,选择磁盘然后清除分区

存储设备界面

这次提示将永久删除该设备上的所有现有分区,确定

清除分区确认

添加新磁盘到磁盘组

清除分区后回到 vSAN集群 → 配置 → 磁盘管理,新磁盘已经从"不合格"变成"未声明":

新硬盘状态 - 未声明

然后去磁盘组添加磁盘:

添加磁盘到磁盘组

核对磁盘 naa.5000c500ca5f9073,确认添加

确认添加磁盘

任务执行中:

任务进行中

验证结果

磁盘添加成功,运行状态正常:

磁盘添加成功

总结

本次 vSAN 集群磁盘故障处理过程总结:

  • 故障发现:通过 iDRAC 发送的邮件告警 和 vCenter vSAN-Skyline 监控及时发现磁盘故障
  • 数据保护:FTT=1 副本模式下,故障磁盘数据已自动迁移到其他节点,无需担心数据丢失
  • 更换流程:移除故障磁盘 → 物理更换新盘 → 清除分区 → 添加到磁盘组
  • 关键点:未启用去重的情况下,可以单独更换故障磁盘而不影响整个磁盘组

处理完成后,vSAN 会自动平衡磁盘数据,整个过程对虚拟机运行无影响。

Created by aka.g