Аппаратные сбои при создании нового кластера

Question

Аппаратные сбои при создании нового кластера

Кто-то в моей компании строит высокопроизводительный кластер (50 ядер ЦП, полдюжины машин, 32 модуля памяти на машину). У нас совсем нет опыта работы с кластерами, и мы обеспокоены тем, что это займет слишком много времени (более 2 месяцев). Он говорит о том, что время до отказа оборудования (несколько процессоров / модулей памяти выходят из строя) каждый раз, когда я связываюсь с ним.

Я ищу некоторый совет - нормально ли для нескольких процессоров и модулей памяти выходить из строя в новых кластерах? Или это, скорее всего, из-за человеческой ошибки?

0

hardware-failure cluster

Источник

draguignan 13 июл '16 в 08:35

1 ответ

Другие вопросы по тегам hardware-failure cluster

Adam Wykes 25 июл '16 в 14:20 2016-07-25 14:20 · Answer 1 · 2016-07-25 14:20

Процессоры почти никогда не выходят из строя, а ОЗУ выходит из строя довольно редко. Если есть проблемы с этими двумя конкретными типами оборудования, то реальная проблема, вероятно, заключается в том, что сборщик столкнулся с непредвиденными проблемами совместимости.

С таким большим объемом памяти (~192 модуля неизвестного размера), вполне возможно, что ошибки переворачивания битов могут начать воспитывать свои головы с пугающей частотой. Я надеюсь, что ОЗУ ECC, в противном случае это может быть причиной многих задержек и фальстартов.