诊断和更换有故障的硬盘驱动器(Windows专用服务器,发生硬件袭击)

2020年12月29日15:39:52 发表评论 70 次浏览

在本文中, 你将学习如何识别有故障的硬盘驱动器并为更换服务器做好准备。

先决条件

本文是为至少具有Windows服务器管理基本知识的客户创建的。如果你对驱动器更换有任何疑问或需要帮助, 请联系客户服务。

为了给自己带来最佳性能, 你必须确保监视专用服务器的硬件RAID。如果你发现硬盘驱动器有故障或收到有关硬盘驱动器有故障的通知电子邮件, 则必须联系客服安排更换。为此, 你首先必须确定有故障的硬盘驱动器并为交换做好准备。

谨慎行事!

RAID系统可实现更高的可靠性和/或更高的速度。但是, 它们不能代替常规备份。为避免数据丢失, 我们建议你定期备份数据。另外, 在执行以下步骤以确保数据安全之前, 请确保已备份数据。

有关创建备份的更多信息, 请单击此处:

备份解决方案

硬件RAID控制器:常规信息

硬件RAID控制器是作为硬件组件内置在服务器中的物理控制器。该控制器具有自己的处理器, 用于计算RAID操作, 并且处理器组织和管理内存空间。因此, 服务器的CPU不会受到RAID计算的负担。对于硬件RAID控制器, RAID功能也独立于操作系统。他们由特别管理命令行界面(CLI)程序, 取决于制造商和型号。

诊断硬盘错误

为了检测硬盘驱动器错误, 我们建议你使用Smartctl程序。

Smartctl是一个命令行程序, 用于使用SMART(自我监视, 分析和报告技术)监视卷。使用此程序, 你可以检查硬盘驱动器是否有故障。它是Smartmontools的组件。

可以在此处找到受支持的硬件控制器的列表:

https://www.smartmontools.org/wiki/Supported_RAID-Controllers

安装Smartctl

你可以在以下页面上下载Smartmontools:

https://www.smartmontools.org/wiki/下载#安装Windows程序包

识别硬件RAID控制器

如何检查服务器内置的硬件RAID控制器:

  • 打开控制面板.

  • 请点击硬件>设备和打印机>装置经理.

  • 在"内存控制器"部分, 检查服务器中安装了哪个控制器。

检查硬件袭击的状态

有关检查硬件突击状态的信息可在以下位置找到:

硬件RAID监视/重建(Windows)

如果RAID阵列中缺少磁盘, 则可能是故障或损坏。有缺陷的RAID可能如下所示:

CLI> rsf信息

#名称磁盘TotalCap FreeCap磁盘通道状态

================================================ ================================================== ================================================= ==============================================

1团队袭击#00 3 2250

在上面的示例中, 磁盘2的状态为不完整。这表明存在缺陷。

查看硬盘信息

Smartctl在Windows和Linux中的行为相同。因此, 你可以使用相同的命令。要使用Smartctl进行故障排除, 必须打开命令提示符并切换到Smartmontools所在的目录。

要使用Smartctl访问硬盘驱动器信息, 必须始终将适当的命令与选件和目标设备一起指定。目标设备取决于控制器制造商。

使用下面列出的命令通过硬盘调用诊断所需的信息:

制造商 硬盘 命令
槟榔 1 smartctl -iHAl错误/ dev / sg1 -d槟榔岛, 1
槟榔 2 smartctl -iHAl错误/ dev / sg1 -d槟榔岛, 2
LSI / 3Ware 1 smartctl -iHAl错误/ dev / twe0 -d 3ware, 0
LSI / 3Ware 2 smartctl -iHAl错误/ dev / twe0 -d 3ware, 1
Adaptec 1 smartctl -iHAl错误/ dev / sg2 -d饱和
Adaptec 2 smartctl -iHAl错误/ dev / sg3 -d饱和
Adaptec (3) smartctl -iHAl错误/ dev / sg4 -d饱和
Adaptec (4) smartctl -iHAl错误/ dev / sg5 -d饱和
戴尔电脑 1 smartctl -iHAl错误-d sat + megaraid, 0 / dev / sda
戴尔电脑 2 smartctl -iHAl错误-d sat + megaraid, 1 / dev / sda
博通 1 smartctl -iHAl错误-d sat + megaraid, 0 / dev / sda
博通 2 smartctl -iHAl错误-d sat + megaraid, 1 / dev / sda

可在以下页面上找到支持的硬件控制器的其他命令:

https://www.smartmontools.org/wiki/Supported_RAID-Controllers

例子:

C:\Program Files\smartmontools\bin>smartctl -iHAl error /dev/sg1 -d areca, 1

smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1, 000, 204, 886, 016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

解释数据

第一部分列出了有关硬盘驱动器的特征信息。在本节中, 你将找到设备型号, 序列号和测试硬盘的大小:

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1, 000, 204, 886, 016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

在第二部分中, Smartctl将评估硬盘的当前状态。例如, 如果值失败的or未知显示而不是值通过, 你应该尽快更换硬盘。

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

在第三部分中, 详细列出了确定的SMART VALUES。每个当前百分比值旁边(值), 最差的测量值(最差)和各自的极限值(阈值) 被列为。如果当前百分比值(值)或最差的测量值(最差)超过限制值(阈值), 则SMART警告会显示在WHEN_FAILED列(例如FAILING_NOW)。

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

以下参数可以指示在显示SMART警告之前硬盘即将发生故障:

Reallocated_Sector_Ct:指定由于读取错误而重新分配的扇区数。如果无法再正确读取, 写入或检查一个扇区, 则会自动为其分配一个替换扇区。故障扇区将永久标记为不可读。这是表面初期问题的明确警告标志。如果该值不等于零, 则通常会出现硬盘故障。该值是更换硬盘驱动器的最重要指标。

Current_Pending_Sector_Ct:指定等待重新映射的不稳定扇区的数量。如果无法正确读写扇区, 则它首先会收到状态目前待定行业。由于该扇区中的数据未知, 因此无法在此状态下重新分配该扇区。仅在几次不成功的读取或写入尝试之后, 才分配替换扇区, 并将有缺陷的扇区永久标记为不可读。价值Current_Pending_Sector_Ct是更换硬盘的重要指标。如果该值不等于零, 则通常会出现硬盘故障。

Offline_Uncorrectable:指定不可纠正的写入和读取扇区错误的数量。

最后一部分介绍内部硬盘驱动器日志。如果未从硬盘驱动器正确处理服务器的工作单, 则会在此处记录错误。如果本节中的错误数至少为两位数, 则应尽快更换硬盘驱动器das。

SMART Error Log Version: 1
No Errors Logged

查看日志文件

请参阅相应制造商的文档, 以获取有关查看日志文件的信息。

槟榔

http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software

3件商品

http://www.3ware.com/support/userdocs.asp

Adaptec

http://download.adaptec.com/pdfs/user_guides/microsemi_raid_controller_iug_6_2017.pdf

戴尔电脑

https://www.dell.com/support/home/de/de/debsdt1/product-support/product/poweredge-rc-h330/manuals

博通

https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation

准备更换硬盘

查看驱动器更换的详细信息

需要以下信息才能更换有故障的硬盘驱动器:

  • RAID中硬盘的名称

  • 序列号

  • 模型

  • 日志文件(可选)

创建一个SMART日志

使用下面列出的命令来生成完整的SMART日志:

制造商 硬盘 命令
槟榔 1 smartctl -x / dev / sg1 -d槟榔岛, 1
槟榔 2 smartctl -x / dev / sg1 -d槟榔岛, 2
LSI / 3Ware 1 smartctl -x / dev / twe0 -d 3ware, 0
LSI / 3Ware 2 smartctl -x / dev / twe0 -d 3ware, 1
Adaptec 1 smartctl -x / dev / sg2 -d饱和
Adaptec 2 smartctl -x / dev / sg3 -d坐
Adaptec (3) smartctl -x / dev / sg4 -d饱和
Adaptec (4) smartctl -x / dev / sg5 -d坐
戴尔电脑 1 smartctl –x -d sat + megaraid, 0 / dev / sda
戴尔电脑 2 smartctl –x -d sat + megaraid, 1 / dev / sda
博通 1 smartctl –x -d sat + megaraid, 0 / dev / sda
博通 2 smartctl –x -d sat + megaraid, 1 / dev / sda

如果SMART日志是如上所述创建的, 它将包含你需要的所有信息。然后, 你可以更换有故障的硬盘驱动器。要完成此操作, 请联系notlogy客户支持.

如果你无法使用smartctl找到有故障的硬盘驱动器的序列号, 则可以选择向客户服务部提供功能正常的硬盘驱动器的序列号。

如果你无法确定更换所需的信息并希望更换硬盘驱动器, 则必须在更换硬件之前检查硬件。在此检查过程中, 服务器通常暂时不可用。如果在此测试期间检测到硬盘驱动器有缺陷, 则需要对其进行更换。

安排更换硬盘

然后, 你可以更换有故障的硬盘驱动器。为此, 请联系notlogy客户支持.

更换硬盘驱动器后应采取的步骤

更换有故障的硬盘驱动器后, 必须重建RAID系统, 该系统通常会自动启动。请确保RAID系统的重建开始并成功完成。


内容

  • 硬件RAID控制器:常规信息
  • 诊断硬盘错误
  • 查看硬盘信息
  • 解释数据
  • 查看日志文件
  • 准备更换硬盘
  • 安排更换硬盘
  • 更换硬盘驱动器后应采取的步骤
  • 到达顶点
一盏木

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: