记录一次 vSAN 集群中磁盘故障的发现、处理和恢复全过程。
故障发现
环境背景
- 架构:3 节点 vSAN 集群(ESXi 10.11, 10.12, 10.13)
- 状态:FTT=1(副本模式),未启用去重与压缩
- 故障点:10.11 主机 Disk 15 (HDD) 预警故障(PDR16)
iDRAC 告警
收到idrac的邮件告警通知,报告预测性失败:

iDRAC 后台运行状况显示警告状态:

查看 iDRAC 最近的日志记录:

可以看到磁盘 15 出现告警,磁盘详细信息中预测到故障:

vCenter 告警
登录 vSphere 可以看到 vSAN 集群出现告警:

vSAN 集群 → 监控 → vSAN-Skyline 运作状况 → 物理磁盘提示出现异常:

Skyline 运作状况中物理磁盘异常的详细提示:
- 主机:192.168.10.11
- 磁盘:Local SEAGATE Disk (naa.5000c500ee6fd67b)
- 整体运行状况:警告
- 元数据运行状况:正常
- 操作运行状况:警告
- 在 CMMDS/VSI 中显示:是/是
- 操作状况说明:即将发生永久磁盘故障,数据撤出已完成
- 建议:如果磁盘属于启用去重的磁盘组,请将该磁盘组从 vSAN 移除,替换出故障的磁盘,然后重新添加该磁盘组。否则,请只移除出故障的磁盘,然后添加替换磁盘。
UUID:52eb9b95-3ca8-5671-9b54-2c93e6963b0b

故障确认
判断是否启用去重
确认磁盘是否属于启用去重的磁盘组:

空间效率显示"无",即没有开启去重和压缩。

查看磁盘组状态
在 vSAN 集群 → 配置 → 磁盘管理中可以看到 192.168.10.11 这台服务器运行状况显示不正常:

点击 192.168.10.11 就能看到其中一个磁盘组显示不正常:

展开异常的磁盘组,其中一块磁盘的运行状况显示"已撤出",然后可以查看更多详情和物理位置:

磁盘物理位置:Enclosure 16 Slot 15
更换硬盘
移除故障磁盘
选择故障的磁盘,移除磁盘,确认操作:
提示:因为本身是已撤出状态,虚拟机数据早已被迁移,大胆移除即可。

物理更换
到机房更换硬盘前先闪灯确认物理位置,确认无误后拔出异常的硬盘,将新的硬盘插入。
iDRAC 验证
更换硬盘后去 iDRAC 确认硬盘状态,已经恢复正常:


重新配置
查看新硬盘状态
回到 vSAN 可以看到新硬盘已经有显示,但声明状态是"不合格",还不能添加到磁盘组内:

清除磁盘分区
对这块新换上去的磁盘进行清除分区操作:


清除分区后在 vSAN 界面没有反应。先记下磁盘naa.5000c500ca5f9073
主机存储设备清除
去 192.168.10.11 主机的配置 → 存储设备,搜索 naa.5000c500ca5f9073,选择磁盘然后清除分区

这次提示将永久删除该设备上的所有现有分区,确定

添加新磁盘到磁盘组
清除分区后回到 vSAN集群 → 配置 → 磁盘管理,新磁盘已经从"不合格"变成"未声明":

然后去磁盘组添加磁盘:

核对磁盘 naa.5000c500ca5f9073,确认添加

任务执行中:

验证结果
磁盘添加成功,运行状态正常:

总结
本次 vSAN 集群磁盘故障处理过程总结:
- 故障发现:通过 iDRAC 发送的邮件告警 和 vCenter vSAN-Skyline 监控及时发现磁盘故障
- 数据保护:FTT=1 副本模式下,故障磁盘数据已自动迁移到其他节点,无需担心数据丢失
- 更换流程:移除故障磁盘 → 物理更换新盘 → 清除分区 → 添加到磁盘组
- 关键点:未启用去重的情况下,可以单独更换故障磁盘而不影响整个磁盘组
处理完成后,vSAN 会自动平衡磁盘数据,整个过程对虚拟机运行无影响。