smartctl + что означает «Всего неисправленных ошибок»

мы провели несколько тестов сsmartctlкоманда на наших физических серверах datanode ,

и результаты следующие (пример с одного диска -sdd), как мы видим ниже -SMART Health Status: OK

но подTotal uncorrected errors, мы можем видеть4на строке чтения

      Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors

read:   179459994        2         0  179459994          3     121159.886           4

чему мы должны научиться из вышеуказанной ошибки? о здоровье диска? это что-то вроде неисправности диска?

примечание: из сообщения ядра мы не обнаружили никаких ошибок относительно SDD-диска.

полный вывод из smartctl

      smartctl -a /dev/sdd
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-3.10.0-957.el7.x86_64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               SEAGATE
Product:              ST2000NX0433
Revision:             NS02
Compliance:           SPC-4
User Capacity:        2,000,398,934,016 bytes [2.00 TB]
Logical block size:   512 bytes
Formatted with type 2 protection
LU is fully provisioned
Rotation Rate:        7200 rpm
Form Factor:          2.5 inches
Logical Unit id:      0x5000c5009ead9b67
Serial number:        W4605ZJS
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sun Apr 10 07:43:13 2022 UTC
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Disabled or Not Supported

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     26 C
Drive Trip Temperature:        60 C

Manufactured in week 06 of year 2017
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  67
Specified load-unload count over device lifetime:  300000
Accumulated load-unload cycles:  1814
Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 1875105375
  Blocks received from initiator = 187534699
  Blocks read from cache and sent to initiator = 190120229
  Number of read and write commands whose size <= segment size = 259502723
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 42308.43
  number of minutes until next internal SMART test = 44

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   179459994        2         0  179459994          3     121159.886           4
write:         0        0         6         6          6     120741.496           0
verify: 2979425514        0         0  2979425514          0      18284.914           0

Non-medium error count:      465

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                  96      13                 - [-   -    -]
# 2  Background short  Completed                  96       6                 - [-   -    -]

Long (extended) Self Test duration: 20400 seconds [340.0 minutes]

2 ответа

Наиболее важными параметрами, на которые следует обратить внимание, являются чтение (и запись) «Общее количество неисправленных ошибок» и «Элементы в расширенном списке дефектов».

Всего неисправленных ошибок указывает общее количество блоков, для которых произошла неисправленная ошибка данных.

Если микропрограмме диска удалось переназначить восстановленные данные из поврежденного сектора в запасной физический сектор, то исходный поврежденный сектор не отображается и помещается в увеличенный список дефектов.

В вашем случае «Всего неисправленных ошибок» равно 4, а «Элементов в расширенном списке дефектов» — 0.

Это означает, что четыре сектора вышли из строя настолько сильно, что прошивка не смогла их переназначить и заменить запасными секторами (большинство дисков имеют несколько тысяч таких запасных секторов).

Хотя четыре сектора — это не так уж и много, возможно, на диске произошел сбой. Решение о замене или нет принимаете вы. Если вы решите сохранить его, убедитесь, что у вас есть резервные копии всех его данных.

Другими словами, пока количество «Всего неисправленных ошибок» остается 4, а «Всего исправленных ошибок» остается 0 (что означает, что «Элементы в расширенном списке дефектов» равны 0), состояние диска стабильно, и вы можете продолжать работу. чтобы использовать его. Если какое-либо из этих чисел начнет увеличиваться, это большой знак опасности. Нет необходимости проверять эти параметры каждый день, но делайте это время от времени.

Что касается интерпретации ожидающих и перераспределенных секторов, я недавно написал следующий пост:

Неужели этот диск без индикации сбоя в SMART умирает?

Пожалуйста, относитесь к «элементам в расширенном списке дефектов» как к моим утверждениям об ожидающих и перераспределенных секторах.

Другие вопросы по тегам