smartctl + что означает «Всего неисправленных ошибок»
мы провели несколько тестов сsmartctl
команда на наших физических серверах datanode ,
и результаты следующие (пример с одного диска -sdd
), как мы видим ниже -SMART Health Status: OK
но подTotal uncorrected errors
, мы можем видеть4
на строке чтения
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 179459994 2 0 179459994 3 121159.886 4
чему мы должны научиться из вышеуказанной ошибки? о здоровье диска? это что-то вроде неисправности диска?
примечание: из сообщения ядра мы не обнаружили никаких ошибок относительно SDD-диска.
полный вывод из smartctl
smartctl -a /dev/sdd
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-3.10.0-957.el7.x86_64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Vendor: SEAGATE
Product: ST2000NX0433
Revision: NS02
Compliance: SPC-4
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Logical block size: 512 bytes
Formatted with type 2 protection
LU is fully provisioned
Rotation Rate: 7200 rpm
Form Factor: 2.5 inches
Logical Unit id: 0x5000c5009ead9b67
Serial number: W4605ZJS
Device type: disk
Transport protocol: SAS (SPL-3)
Local Time is: Sun Apr 10 07:43:13 2022 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Temperature Warning: Disabled or Not Supported
=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature: 26 C
Drive Trip Temperature: 60 C
Manufactured in week 06 of year 2017
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 67
Specified load-unload count over device lifetime: 300000
Accumulated load-unload cycles: 1814
Elements in grown defect list: 0
Vendor (Seagate) cache information
Blocks sent to initiator = 1875105375
Blocks received from initiator = 187534699
Blocks read from cache and sent to initiator = 190120229
Number of read and write commands whose size <= segment size = 259502723
Number of read and write commands whose size > segment size = 0
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 42308.43
number of minutes until next internal SMART test = 44
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 179459994 2 0 179459994 3 121159.886 4
write: 0 0 6 6 6 120741.496 0
verify: 2979425514 0 0 2979425514 0 18284.914 0
Non-medium error count: 465
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background long Completed 96 13 - [- - -]
# 2 Background short Completed 96 6 - [- - -]
Long (extended) Self Test duration: 20400 seconds [340.0 minutes]
2 ответа
Наиболее важными параметрами, на которые следует обратить внимание, являются чтение (и запись) «Общее количество неисправленных ошибок» и «Элементы в расширенном списке дефектов».
Всего неисправленных ошибок указывает общее количество блоков, для которых произошла неисправленная ошибка данных.
Если микропрограмме диска удалось переназначить восстановленные данные из поврежденного сектора в запасной физический сектор, то исходный поврежденный сектор не отображается и помещается в увеличенный список дефектов.
В вашем случае «Всего неисправленных ошибок» равно 4, а «Элементов в расширенном списке дефектов» — 0.
Это означает, что четыре сектора вышли из строя настолько сильно, что прошивка не смогла их переназначить и заменить запасными секторами (большинство дисков имеют несколько тысяч таких запасных секторов).
Хотя четыре сектора — это не так уж и много, возможно, на диске произошел сбой. Решение о замене или нет принимаете вы. Если вы решите сохранить его, убедитесь, что у вас есть резервные копии всех его данных.
Другими словами, пока количество «Всего неисправленных ошибок» остается 4, а «Всего исправленных ошибок» остается 0 (что означает, что «Элементы в расширенном списке дефектов» равны 0), состояние диска стабильно, и вы можете продолжать работу. чтобы использовать его. Если какое-либо из этих чисел начнет увеличиваться, это большой знак опасности. Нет необходимости проверять эти параметры каждый день, но делайте это время от времени.
Что касается интерпретации ожидающих и перераспределенных секторов, я недавно написал следующий пост:
Неужели этот диск без индикации сбоя в SMART умирает?
Пожалуйста, относитесь к «элементам в расширенном списке дефектов» как к моим утверждениям об ожидающих и перераспределенных секторах.