linux – 3Ware的tw_cli表示“DEGRADED”磁盘与“ECC-ERROR”的含义是什么？

我在3ware 9650SE-16ML卡上有一个悲伤的RAID阵列.我不能说的是,如果我刚刚遭遇双磁盘故障(真可惜！)或者我读错了. / c0的相关输出显示全部是：

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ

失败是(从显示警报)：

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1,unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1,unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

我认为发生了什么是p0失败,然后p1有一个ECC错误(又名,我的数据消失了).但是……也许不是吗？它保持在97％重建,但无法通过此错误.

据我所知,以前的管理员关闭了定期验证,这是让我们进入这种状态的原因.这不是大多数人应该担心的3Ware RAID！

更新

在敲打它几天之后,我做了IgnoreECC位并重建了,但是我的数据被清除了.游民.

解决方法

ECC错误意味着驱动器上至少有一个不可读的扇区.但是,如果幸运的话,该卷上的文件系统实际上可能不会使用该扇区,因此您仍然可以在此状态下从阵列中复制数据.

在重建期间还有一些选项可以忽略ECC错误：

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

但是,使用这些选项意味着受坏扇区影响的RAID条带将被破坏(不确定卡在这种情况下究竟会做什么 – 它可能用零替换整个条带,甚至用随机数据替换),因此“恢复的“数组实际上可能有不可检测的损坏(如果受影响的条带位于某个数据文件的中间).在尝试重建之前将数据从阵列复制到其他位置可能更安全(至少在尝试读取坏区时应该会出错).

您应该设置数组的预定验证以更早地捕获不可读的扇区,以便您可以替换刚开始变坏的驱动器.

linux – 3Ware的tw_cli表示“DEGRADED”磁盘与“ECC-ERROR”的含义是什么？

解决方法

相关文章