Аппаратные сбои при создании нового кластера

Кто-то в моей компании строит высокопроизводительный кластер (50 ядер ЦП, полдюжины машин, 32 модуля памяти на машину). У нас совсем нет опыта работы с кластерами, и мы обеспокоены тем, что это займет слишком много времени (более 2 месяцев). Он говорит о том, что время до отказа оборудования (несколько процессоров / модулей памяти выходят из строя) каждый раз, когда я связываюсь с ним.

Я ищу некоторый совет - нормально ли для нескольких процессоров и модулей памяти выходить из строя в новых кластерах? Или это, скорее всего, из-за человеческой ошибки?

1 ответ

Процессоры почти никогда не выходят из строя, а ОЗУ выходит из строя довольно редко. Если есть проблемы с этими двумя конкретными типами оборудования, то реальная проблема, вероятно, заключается в том, что сборщик столкнулся с непредвиденными проблемами совместимости.

С таким большим объемом памяти (~192 модуля неизвестного размера), вполне возможно, что ошибки переворачивания битов могут начать воспитывать свои головы с пугающей частотой. Я надеюсь, что ОЗУ ECC, в противном случае это может быть причиной многих задержек и фальстартов.

Другие вопросы по тегам