Как заставить Smartd замолчать об одном конкретном офлайновом неисправимом секторе?
У меня есть диск в программном RAID-1 с двумя дисками, для которого недавно в статусе SMART появился "автономный неисправимый сектор".
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 1
Это, по-видимому, является лишь признаком неизбежного сбоя диска, если он происходит все чаще (а поскольку диск зеркально отражен, большой риск потери данных также отсутствует). В то время самотестирование также не удалось в какой-то момент и smartd
послал мне письмо, чтобы уведомить меня об этом, как это, конечно, должно сделать.
Однако запись в поврежденный сектор обычно приводит к тому, что диск использует вместо него один из резервных секторов, что, по-видимому, и произошло, поскольку dd
перебирая диск, все самопроверки проходили просто отлично. А также badblocks
Также не нашел оснований жаловаться.
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
[...]
# 5 Extended offline Completed without error 00% 5559 -
# 6 Short offline Completed without error 00% 5540 -
# 7 Short offline Completed: read failure 90% 5524 63273368
Число неисправных секторов не уменьшилось, хотя и не должно, так как сломанный сектор все еще там, хотя и не используется. Тем не мение, smartd
продолжает отправлять мне электронные письма каждую ночь:
The following warning/error was logged by the smartd daemon:
Device: /dev/sda [SAT], 1 Offline uncorrectable sectors
Это чрезвычайно раздражает, и мой здоровый панический рефлекс smartd
почты.
Диск Western Digital WD20EARS и smartd
версия 5.41 2011-06-09 r3365.
2 ответа
Может быть, вам нужно -U +
/ -U 198+
в файле конфигурации (+
является значительным).
Если указано "+", отчет распечатывается только в том случае, если число секторов увеличилось с момента последнего цикла проверки. Некоторые диски не сбрасывают этот атрибут при перераспределении плохого сектора. Смотрите также ´-v 198, увеличивая´ ниже.
Есть две возможности, откуда приходят эти письма. SmartD может отправлять письма самостоятельно, но, скорее всего, он не настроен таким образом, поэтому я предполагаю, что эти письма отправляются с помощью logcheck. Если это предположение неверно, вам не нужно читать дальше.
logcheck сканирует файлы журнала и отправляет письма, если считает, что вам следует беспокоиться обо всем, что случилось с вашей системой.
У вас есть возможность написать правило игнорирования logcheck, которое указывает logcheck не отправлять сообщения, которые соответствуют определенному шаблону.
Вы можете (в системах на основе Debian) создать файл с именем "/etc/logcheck/ignore.d.server/smartd_own" со следующим содержимым:
^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$
Это должно отфильтровать раздражающие письма, но написать вам снова, если счетчик неисправимых секторов увеличивается.