Аппаратные сбои при создании нового кластера
Кто-то в моей компании строит высокопроизводительный кластер (50 ядер ЦП, полдюжины машин, 32 модуля памяти на машину). У нас совсем нет опыта работы с кластерами, и мы обеспокоены тем, что это займет слишком много времени (более 2 месяцев). Он говорит о том, что время до отказа оборудования (несколько процессоров / модулей памяти выходят из строя) каждый раз, когда я связываюсь с ним.
Я ищу некоторый совет - нормально ли для нескольких процессоров и модулей памяти выходить из строя в новых кластерах? Или это, скорее всего, из-за человеческой ошибки?
1 ответ
Процессоры почти никогда не выходят из строя, а ОЗУ выходит из строя довольно редко. Если есть проблемы с этими двумя конкретными типами оборудования, то реальная проблема, вероятно, заключается в том, что сборщик столкнулся с непредвиденными проблемами совместимости.
С таким большим объемом памяти (~192 модуля неизвестного размера), вполне возможно, что ошибки переворачивания битов могут начать воспитывать свои головы с пугающей частотой. Я надеюсь, что ОЗУ ECC, в противном случае это может быть причиной многих задержек и фальстартов.