Задания LSF Requeue с измененными параметрами отправки
У меня есть сценарий, который выполняет моделирование в кластере через планировщик LSF. В моей настройке «main.bash» выполняет сценарий задания LSF «simulator.bash». Если по какой-либо причине поток/индекс завершается сбоем, задания повторно помещаются в очередь до тех пор, пока все потоки не завершат свои задачи успешно.
С планировщиком, таким как slurm, у нас есть scontrol, который можно использовать для изменения таких атрибутов, как RUNTIMELIMIT, количество ядер, количество узлов и т. д., прежде чем отправлять/запрашивать завершенное задание.
Мой вопрос: есть ли в LSF механизм, с помощью которого мы можем изменять атрибуты завершенного /завершенного задания и повторно помещать его в очередь?
Содержимое main.bash
#!/usr/bin/env bash
collect_job_status() {
jid=$1
bjobs -noheader -o 'jobid:-10 jobindex:-10 exit_code:-10 stat:-5 start_time:-15 finish_time:-15 runtimelimit:-15 resume_reason:15 exit_reason:20' $jid
status=$(bjobs -noheader -w -a $jid | tr -s ' ' | cut -d ' ' -f3)
if [[ $status =~ .*EXIT.* ]]; then
echo 1
else
echo 0
fi
}
main() {
output=$(bsub <./simulator.bash)
jid=$(echo $output | cut -d'<' -f2 | cut -d'>' -f1)
echo "Submitted JobId = $jid"
echo "Submitting dummy job for waiting."
bsub -K -P myproject -w "ended($jid)" -W '00:10' -J "DUMM_JOB_$(($RANDOM % 1000))" -N 1 "sleep 5; exit 0;"
jname=$(bjobs -noheader -o 'job_name jobindex' $jid | tr -s ' ' | sort -n -k2 | tail -1 | cut -d ' ' -f1)
echo "Job NAME :: $jname"
echo "JOB EXIT STATUS for $jid :: $(collect_job_status $jid)"
while [ $(collect_job_status $jid) -ne 0 ]; do
echo "-----------------------------------------------------------------------------------------------"
echo -e "Job $jname $jid Failed.\nREQUEUING JOB..."
current_run_time=$(bjobs -noheader -o 'jobid:-10 jobindex:-10 exit_code:-10 stat:-5 start_time:-15 finish_time:-15 runtimelimit:-15 resume_reason:15 exit_reason:20' 2610014 | tr -s ' ' | cut -d ' ' -f13 | sort -u -rn)
brequeue -J "$jname" -e $jid
echo "Submitting dummy job for waiting."
bsub -K -P myproject -w "ended($jid)" -W '00:10' -J "DUMM_JOB_$(($RANDOM % 1000))" -N 1 "sleep 5; exit 0;"
done
echo "-----------------------------------------------------------------------------------------------"
}
main
Содержимое Simulator.bash
#!/usr/bin/env bash
#BSUB -W 00:10
#BSUB -P myproject
#BSUB -n 1
#BSUB -o test_reque_%J_%I.out
#BSUB -e test_reque_%J_%I.err
#BSUB -cwd /opt
#BSUB -J TESTING_REQUE[1-10]
export LSB_JOB_REPORT_MAIL=N
MODEL_DIR_FOLDER=(
/path/to/model/1
/path/to/model/2
/path/to/model/3
/path/to/model/4
/path/to/model/5
/path/to/model/6
/path/to/model/7
/path/to/model/8
/path/to/model/9
/path/to/model/10
)
SIM_FILE_NAME=(
sim_file_1
sim_file_2
sim_file_3
sim_file_4
sim_file_5
sim_file_6
sim_file_7
sim_file_8
sim_file_9
sim_file_10
)
if [[ $(($RANDOM % 2)) -eq 0 ]]; then
echo >&2 "FAILING THIS JOB $LSB_JOBINDEX"
exit 127
fi
echo "JOB@@_OUTPUT $LSB_JOBINDEX :: MODEL_DIR_FOLDER :: ${MODEL_DIR_FOLDER[$((LSB_JOBINDEX - 1))]}"
echo "JOB@@_OUTPUT $LSB_JOBINDEX :: SIM_FILE_NAME :: ${SIM_FILE_NAME[$((LSB_JOBINDEX - 1))]}"
sleep 10
exit 0