Параллельное задание Ansys в кластере Slurm застряло без сообщения об ошибке или выходе
Я работаю над кластером Slurm, выполняя задания Ansys (V18.2) параллельно. Большие задания (то есть большие файлы решателя) часто зависают без сообщения об ошибке или сообщения о выходе, задания продолжают выполняться до истечения времени ожидания. Из-за большого размера задания файлы решателя записываются / сохраняются не на диск (в ОЗУ) или на чистый SSD узла, а в кластер / хранилище данных. Там я ясно вижу, застряло ли задание без изменений в информации "дата изменения" файлов решателя.
Типичные сообщения об ошибках, которые я испытывал, были "сбой узла" или неопределенное сообщение о выходе, которое я связал с утечкой памяти. Но это не происходит прямо сейчас.
Как ни странно, если снова запустить ту же работу, это может произойти в другой момент времени или (если мне повезет) вообще.
Что я пробовал до сих пор:
- Уменьшение количества запрашиваемых процессоров каким-то образом увеличивает вероятность того, что задание будет завершено. Но из-за указанного максимального времени работы мне нужно распараллеливание
- Типы MPI (Intel, MPI платформы) без результата
- выделенный раздел хранения (без существенной разницы)
- переносить VS из запроса ядра (в любом случае решатель всегда переключается на вне ядра)
Я рад любым советам о том, как уменьшить бессмысленные вычислительные усилия путем повторного запуска заданий, что также отнимает много времени для нашего проекта.
PS: гораздо меньшие задания (например, в 3 раза меньшее количество степеней свободы) никогда не сталкиваются с этой проблемой, и я могу использовать полное количество ядер на узел, что также максимально допустимое число с моей лицензией Ansys (16 ядер)