Параллельное задание Ansys в кластере Slurm застряло без сообщения об ошибке или выходе

Я работаю над кластером Slurm, выполняя задания Ansys (V18.2) параллельно. Большие задания (то есть большие файлы решателя) часто зависают без сообщения об ошибке или сообщения о выходе, задания продолжают выполняться до истечения времени ожидания. Из-за большого размера задания файлы решателя записываются / сохраняются не на диск (в ОЗУ) или на чистый SSD узла, а в кластер / хранилище данных. Там я ясно вижу, застряло ли задание без изменений в информации "дата изменения" файлов решателя.

Типичные сообщения об ошибках, которые я испытывал, были "сбой узла" или неопределенное сообщение о выходе, которое я связал с утечкой памяти. Но это не происходит прямо сейчас.

Как ни странно, если снова запустить ту же работу, это может произойти в другой момент времени или (если мне повезет) вообще.

Что я пробовал до сих пор:

  • Уменьшение количества запрашиваемых процессоров каким-то образом увеличивает вероятность того, что задание будет завершено. Но из-за указанного максимального времени работы мне нужно распараллеливание
  • Типы MPI (Intel, MPI платформы) без результата
  • выделенный раздел хранения (без существенной разницы)
  • переносить VS из запроса ядра (в любом случае решатель всегда переключается на вне ядра)

Я рад любым советам о том, как уменьшить бессмысленные вычислительные усилия путем повторного запуска заданий, что также отнимает много времени для нашего проекта.

PS: гораздо меньшие задания (например, в 3 раза меньшее количество степеней свободы) никогда не сталкиваются с этой проблемой, и я могу использовать полное количество ядер на узел, что также максимально допустимое число с моей лицензией Ansys (16 ядер)

0 ответов

Другие вопросы по тегам