Как часто проверять аппаратные ошибки / сбои?
Я только что обнаружил этот великий пост: http://www.cyberciti.biz/tips/linux-server-predicting-hardware-failure.html
и вам было интересно, как часто можно проверить наличие неисправного / неисправного оборудования? Я хотел бы как можно раньше, если что-то выйдет из строя, но также не хочу использовать всю вычислительную мощность машины просто для того, чтобы машина сама проверила. У меня есть измененная версия предложенной строки в сценарии оболочки CheckHardware.zsh, которую я хочу добавить в качестве cronjob:
#!/bin/zsh
[ $(grep -c "hardware error" /var/log/mcelog) -gt 0 ] && echo "Hardware Error Found On $(hostname) @ $(date)" | ssmtp administrator@example.com
Мне также было неясно, должна ли утилита командной строки (mcelog) запускаться как cronjob очень часто? То есть я должен иметь два cronjobs? запустить mcelog, а затем проверить файл mcelog на наличие содержимого с "аппаратной ошибкой"?
Заранее благодарим за любую помощь, которую вы можете предложить.
1 ответ
Я думаю, что гораздо лучше, чем проверка через некоторый интервал, получать оповещения, если что-то сломается.
Одним из популярных инструментов для этого является, например, http://nagios.org/ и если вы гуглите, их будет намного больше.
Эти инструменты могут отправлять вам уведомления по электронной почте, если что-то не так. Так, например, вы можете использовать скрипт, который вы опубликовали, и с небольшими изменениями интегрировать его в nagios, чтобы заставить nagios предупреждать вас, если скрипт обнаружит проблему.