诊断和更换有故障的硬盘驱动器(Linux专用服务器具有硬件突袭)

2020年12月29日15:41:29 发表评论 48 次浏览

在本文中, 你将学习如何识别有故障的硬盘驱动器, 以及如何准备服务器以替换有故障的驱动器。

本文假定你具有Linux服务器管理的基本知识。如果在更换有故障的硬盘驱动器时有任何疑问或需要帮助, 请联系notlogy客户支持.

为确保最大程度地提高驱动器的可靠性, 有必要监视专用服务器的硬件RAID。如果发现硬盘驱动器有故障, 或者收到有关硬盘驱动器有故障的通知电子邮件, 则必须联系客户服务以安排更换硬盘驱动器。为此, 你首先必须确定有故障的硬盘驱动器, 并准备好服务器以进行驱动器交换。

RAID系统可实现更高的可靠性和/或更高的速度。但是, 它们不能代替常规备份。为避免数据丢失, 我们建议你定期备份数据。另外, 在执行以下步骤以确保数据安全之前, 请确保备份数据。

有关创建备份的更多信息, 请单击此处:

备份解决方案

备份服务器数据(Linux)

硬件RAID控制器:常规信息

硬件RAID控制器是作为硬件组件内置在服务器中的物理控制器。该控制器具有自己的处理器, 用于计算RAID操作。该处理器组织和管理内存空间。因此, 服务器的CPU不会受到RAID计算的负担。对于硬件RAID控制器, RAID功能独立于操作系统。他们由特别管理命令行界面(CLI)程序可能会因制造商和型号而异。

诊断硬盘错误

为了检测硬盘驱动器错误, 我们建议你使用Smartctl程序。

Smartctl是一个命令行程序, 用于使用SMART(自我监视, 分析和报告技术)监视卷。使用此程序, 你可以检查硬盘驱动器是否有故障。它是Smartmontools的组件。 Smartmontools可作为许多Linux发行版的软件包提供。

在某些情况下, 智能值可能无法检测到硬盘故障。然后, 我们建议你还分析日志文件/ var / log / messages.

安装Smartctl

要安装Smartctl, 请键入以下命令:

CentOS的:

百胜安装smartmontools

Ubuntu:

须藤apt-get install smartmontools

 
确定硬件控制器类型

要检查服务器中安装了哪个硬件控制器, 可以使用sh程序。该程序创建有关硬件组件的详细信息。

要安装该程序, 请输入以下命令:

CentOS的:

百胜安装lshw

Ubuntu:

须藤apt-get install lshw

 
显示硬件信息

要显示硬件信息的摘要, 请键入以下命令:

lshw -short

要将硬件信息输出为文本文件, 请键入以下命令:

lshw> lshw_edition.txt

在以下示例中, 服务器中安装了PERC H330硬件控制器:

root@829F6DF:~# lshw -short
H/W path             Device     Class          Description
==========================================================
                                system         PowerEdge R230 (SKU=NotProvided;ModelName=PowerEdge R230)
/0                              bus            0DWX9P
/0/0                            memory         64KiB BIOS
/0/400                          processor      Intel(R) Xeon(R) CPU E3-1270 v6 @ 3.80GHz
/0/400/700                      memory         256KiB L1 cache
/0/400/701                      memory         1MiB L2 cache
/0/400/702                      memory         8MiB L3 cache
/0/1000                         memory         32GiB System Memory
/0/1000/0                       memory         16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/1                       memory         16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/2                       memory         [empty]
/0/1000/3                       memory         [empty]
/0/100                          bridge         Intel Corporation
/0/100/1                        bridge         Skylake PCIe Controller (x16)
/0/100/1/0           scsi0      storage        MegaRAID SAS-3 3008 [Fury]
/0/100/1/0/2.0.0     /dev/sda   disk           799GB PERC H330 Adp
/0/100/1/0/2.0.0/1   /dev/sda1  volume         2047KiB BIOS Boot partition
/0/100/1/0/2.0.0/2   /dev/sda2  volume         27GiB EXT3 volume
/0/100/1/0/2.0.0/3   /dev/sda3  volume         9536MiB Linux swap volume
/0/100/1/0/2.0.0/4   /dev/sda4  volume         707GiB LVM Physical Volume
/0/100/1.1                      bridge         Skylake PCIe Controller (x8)
/0/100/14                       bus            Sunrise Point-H USB 3.0 xHCI Controller
/0/100/14/0          usb1       bus            xHCI Host Controller
/0/100/14/0/3                   bus            Gadget USB HUB
/0/100/14/1          usb2       bus            xHCI Host Controller
/0/100/14.2                     generic        Sunrise Point-H Thermal subsystem
/0/100/16                       communication  Sunrise Point-H CSME HECI #1
/0/100/16.1                     communication  Sunrise Point-H CSME HECI #2
/0/100/17                       storage        Sunrise Point-H SATA controller [AHCI mode]
/0/100/1d                       bridge         Sunrise Point-H PCI Express Root Port #9
/0/100/1d/0          eth0       network        NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d/0.1        eth1       network        NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d.2                     bridge         Sunrise Point-H PCI Express Root Port #11
/0/100/1d.2/0                   bridge         SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0                 bridge         SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0/0               bridge         SH7758 PCIe-PCI Bridge [PPB]
/0/100/1d.2/0/0/0/0             display        G200eR2
/0/100/1f                       bridge         Sunrise Point-H LPC Controller
/0/100/1f.2                     memory         Memory controller
/0/100/1f.4                     bus            Sunrise Point-H SMBus
查看硬盘信息

要使用Smartctl访问硬盘驱动器信息, 必须始终将适当的命令与选件和目标设备一起指定。目标设备取决于控制器制造商。

使用下面列出的命令来显示诊断硬盘驱动器所需的信息:

制造商 硬盘 命令
槟榔 1 smartctl -iHAl错误/ dev / sg1 -d槟榔岛, 1
槟榔 2 smartctl -iHAl错误/ dev / sg1 -d槟榔岛, 2
LSI / 3Ware 1 smartctl -iHAl错误/ dev / twe0 -d 3ware, 0
LSI / 3Ware 2 smartctl -iHAl错误/ dev / twe0 -d 3ware, 1
Adaptec 1 smartctl -iHAl错误/ dev / sg2 -d饱和
Adaptec 2 smartctl -iHAl错误/ dev / sg3 -d饱和
Adaptec (3) smartctl -iHAl错误/ dev / sg4 -d饱和
Adaptec (4) smartctl -iHAl错误/ dev / sg5 -d饱和
戴尔电脑 1 smartctl -iHAl错误-d sat + megaraid, 0 / dev / sda
戴尔电脑 2 smartctl -iHAl错误-d sat + megaraid, 1 / dev / sda
博通 1 smartctl -iHAl错误-d sat + megaraid, 0 / dev / sda
博通 2 smartctl -iHAl错误-d sat + megaraid, 1 / dev / sda

可在以下页面上找到支持的硬件控制器的其他命令:

https://www.smartmontools.org/wiki/Supported_RAID-Controllers

例子:

[root@localhost ~]# smartctl -iHAl error /dev/sg1 -d areca, 1

smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1, 000, 204, 886, 016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

解释数据

查看你提取的详细信息。第一部分列出了可用于标识硬盘驱动器的信息。例如, 此部分显示设备型号, 序列号和被测硬盘的大小.

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1, 000, 204, 886, 016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

在第二部分中, Smartctl将评估硬盘驱动器的当前状态。例如, 如果值失败的or未知显示而不是值通过, 你应该尽快更换硬盘驱动器。

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

在第三部分中, 详细列出了确定的SMART VALUES。每个当前百分比值旁边(值), 最差的测量值(最差)和各自的极限值(阈值) 被列为。如果当前百分比值(值)或最差的测量值(最差)超过限制值(阈值), 则SMART警告会显示在WHEN_FAILED列(例如FAILING_NOW)。

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

以下参数可以指示在显示SMART警告之前硬盘即将发生故障:

Reallocated_Sector_Ct:指定由于读取错误而重新分配的扇区数。如果无法再正确读取, 写入或检查一个扇区, 则会自动为其分配一个替换扇区。故障扇区将永久标记为不可读。这是表面初期问题的明确警告标志。如果该值不等于零, 则通常会出现硬盘故障。该值是更换硬盘驱动器的最重要指标。

Current_Pending_Sector_Ct:指定等待重新映射的不稳定扇区的数量。如果无法正确读写某个扇区, 它将首先收到状态"当前待处理扇区"。由于该扇区中的数据未知, 因此无法在此状态下重新分配该扇区。仅在几次不成功的读取或写入尝试之后, 才分配替换扇区, 并且将故障扇区永久标记为不可读。值Current_Pending_Sector_Ct是更换硬盘驱动器的重要指示器。如果该值不等于零, 则通常会出现硬盘故障。

Offline_Uncorrectable:指定不可纠正的写入和读取扇区错误的数量。

最后一部分介绍内部硬盘驱动器日志。如果硬盘驱动器未正确处理服务器的工作单, 则会在此处记录错误。如果本节中的错误数至少为两位数, 则应尽快更换硬盘驱动器。

SMART Error Log Version: 1
No Errors Logged

显示日志文件

请参阅相应制造商的文档, 以获取有关日志文件显示的信息。

槟榔

http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software

3件商品

http://www.3ware.com/support/userdocs.asp

Adaptec

http://download.adaptec.com/pdfs/user_guides/microsemi_raid_controller_iug_6_2017.pdf

戴尔电脑

https://www.dell.com/support/home/de/de/debsdt1/product-support/product/poweredge-rc-h330/manuals

博通

https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation

准备更换硬盘

查看驱动器更换的详细信息

需要以下信息才能更换有故障的硬盘驱动器:

  • RAID中硬盘的名称

  • 序列号

  • 模型

  • 日志文件(可选)

创建一个SMART日志

使用下面列出的命令来生成完整的SMART日志:

制造商 硬盘 命令
槟榔 1 smartctl -x / dev / sg1 -d槟榔岛, 1
槟榔 2 smartctl -x / dev / sg1 -d槟榔岛, 2
LSI / 3Ware 1 smartctl -x / dev / twe0 -d 3ware, 0
LSI / 3Ware 2 smartctl -x / dev / twe0 -d 3ware, 1
Adaptec 1 smartctl -x / dev / sg2 -d饱和
Adaptec 2 smartctl -x / dev / sg3 -d坐
Adaptec (3) smartctl -x / dev / sg4 -d饱和
Adaptec (4) smartctl -x / dev / sg5 -d坐
戴尔电脑 1 smartctl –x -d sat + megaraid, 0 / dev / sda
戴尔电脑 2 smartctl –x -d sat + megaraid, 1 / dev / sda
博通 1 smartctl –x -d sat + megaraid, 0 / dev / sda
博通 2 smartctl –x -d sat + megaraid, 1 / dev / sda
  • 如果如上所述创建了SMART日志, 则足够的信息。然后, 你可以将有故障的硬盘驱动器替换为notlogy客户支持.

  • 如果你无法使用smartctl找到有故障的硬盘驱动器的序列号, 则可以选择向客户服务部提供功能正常的硬盘驱动器的序列号。

  • 如果你无法确定更换所需的信息并希望更换硬盘驱动器, 则必须在更换硬件之前检查硬件。在此检查期间, 服务器通常暂时不可用。如果在此测试期间检测到硬盘驱动器有缺陷, 则将其更换。

安排更换硬盘

然后, 你可以更换有故障的硬盘驱动器。请联系notlogy客户支持完成这项工作。

更换硬盘驱动器后应采取的步骤

更换有故障的硬盘驱动器后, RAID系统通常会自动开始重建。请检查RAID系统是否开始重建并成功执行。


内容

  • 硬件RAID控制器:常规信息
  • 诊断硬盘错误
  • 解释数据
  • 显示日志文件
  • 准备更换硬盘
  • 安排更换硬盘
  • 更换硬盘驱动器后应采取的步骤
  • 到达顶点
一盏木

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: