Как часто проверять аппаратные ошибки / сбои?

Question

Как часто проверять аппаратные ошибки / сбои?

Я только что обнаружил этот великий пост: http://www.cyberciti.biz/tips/linux-server-predicting-hardware-failure.html

и вам было интересно, как часто можно проверить наличие неисправного / неисправного оборудования? Я хотел бы как можно раньше, если что-то выйдет из строя, но также не хочу использовать всю вычислительную мощность машины просто для того, чтобы машина сама проверила. У меня есть измененная версия предложенной строки в сценарии оболочки CheckHardware.zsh, которую я хочу добавить в качестве cronjob:

#!/bin/zsh
[ $(grep -c "hardware error" /var/log/mcelog) -gt 0 ] && echo "Hardware Error Found On $(hostname) @ $(date)" | ssmtp administrator@example.com

Мне также было неясно, должна ли утилита командной строки (mcelog) запускаться как cronjob очень часто? То есть я должен иметь два cronjobs? запустить mcelog, а затем проверить файл mcelog на наличие содержимого с "аппаратной ошибкой"?

Заранее благодарим за любую помощь, которую вы можете предложить.

0

hardware-failure ubuntu-server

Источник

tarabyte 21 фев '13 в 06:31

1 ответ

Решение

Другие вопросы по тегам hardware-failure ubuntu-server

replay 21 фев '13 в 07:36 2013-02-21 07:36 · Accepted Answer · 2013-02-21 07:36

Я думаю, что гораздо лучше, чем проверка через некоторый интервал, получать оповещения, если что-то сломается.

Одним из популярных инструментов для этого является, например, http://nagios.org/ и если вы гуглите, их будет намного больше.

Эти инструменты могут отправлять вам уведомления по электронной почте, если что-то не так. Так, например, вы можете использовать скрипт, который вы опубликовали, и с небольшими изменениями интегрировать его в nagios, чтобы заставить nagios предупреждать вас, если скрипт обнаружит проблему.