CPU LOAD Average + когда устанавливать когда порог
У нас есть кластер с физическими машинами HW
Каждая машина содержит 32 процессора
# lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 32
On-line CPU(s) list: 0-31
Thread(s) per core: 2
Core(s) per socket: 8
Теперь мы хотим отправлять сигнал тревоги каждый раз, когда среднее значение нагрузки от времени безотказной работы до 5 минут от времени бездействия достигает порогового значения
Насколько я понимаю, нам нужно беспокоиться, когда среднее значение нагрузки (при 5 мин от времени безотказной работы) превышает 32 (количество процессоров)
Я прав?
1 ответ
Средняя загрузка в первую очередь не показывает нагрузку на процессор, это приблизительная длина очереди рабочего элемента. В реальной жизни на это часто влияет гораздо больше циклов ЦП, потраченных впустую в ожиданиях ввода / вывода, чем в фактически используемых циклах ЦП (конечно, это зависит от рабочей нагрузки).
Посмотрите на top
инструмент для определения первой оценки того, как ваши процессоры проводят свое время. Как правило (и только как таковой) рассмотрим
- Высоко
User
проценты здоровы - ваша машина используется хорошо - Высоко
Sys
проценты могут указывать на не очень эффективное приложение (или гости виртуальных машин, использующие неоптимизированную комбинацию ОС / драйвера) - Высоко
Wait
времена означают, что ваш ввод / вывод (скорее всего, хранилище) не может идти в ногу. Это может снова указывать на необходимость оптимизации внутри вашего приложения или просто требовать слишком много от вашего оборудования хранения (Основные места, которые нужно посмотреть: используются ли вращающиеся диски для чувствительных к задержкам рабочих нагрузок? Используете ли вы RAID5 для небольших операций записи?)