Параллельное задание Ansys в кластере Slurm застряло без сообщения об ошибке или выходе

Question

Параллельное задание Ansys в кластере Slurm застряло без сообщения об ошибке или выходе

Я работаю над кластером Slurm, выполняя задания Ansys (V18.2) параллельно. Большие задания (то есть большие файлы решателя) часто зависают без сообщения об ошибке или сообщения о выходе, задания продолжают выполняться до истечения времени ожидания. Из-за большого размера задания файлы решателя записываются / сохраняются не на диск (в ОЗУ) или на чистый SSD узла, а в кластер / хранилище данных. Там я ясно вижу, застряло ли задание без изменений в информации "дата изменения" файлов решателя.

Типичные сообщения об ошибках, которые я испытывал, были "сбой узла" или неопределенное сообщение о выходе, которое я связал с утечкой памяти. Но это не происходит прямо сейчас.

Как ни странно, если снова запустить ту же работу, это может произойти в другой момент времени или (если мне повезет) вообще.

Что я пробовал до сих пор:

Уменьшение количества запрашиваемых процессоров каким-то образом увеличивает вероятность того, что задание будет завершено. Но из-за указанного максимального времени работы мне нужно распараллеливание
Типы MPI (Intel, MPI платформы) без результата
выделенный раздел хранения (без существенной разницы)
переносить VS из запроса ядра (в любом случае решатель всегда переключается на вне ядра)

Я рад любым советам о том, как уменьшить бессмысленные вычислительные усилия путем повторного запуска заданий, что также отнимает много времени для нашего проекта.

PS: гораздо меньшие задания (например, в 3 раза меньшее количество степеней свободы) никогда не сталкиваются с этой проблемой, и я могу использовать полное количество ядер на узел, что также максимально допустимое число с моей лицензией Ansys (16 ядер)

1

cpu batch parallel-processing slurm

Источник

Anatol 10 апр '19 в 06:39

0 ответов

Другие вопросы по тегам cpu batch parallel-processing slurm