Apache Nutch висит на URL во время цикла выборки на неопределенный срок

Я запускаю Nutch 1.15 в распределенном режиме Hadoop, когда он пытается извлечь файл (185 МБ) в данном конкретном случае и зависает с прерванными потоками. Затем, в следующих циклах Fetch Data, он попытается снова извлечь тот же файл, затем поток зависает и прерывается. Nutch не будет пропускать этот URL, но неоднократно пытается бесконечно извлекать один и тот же файл в следующих циклах Fetch. Есть ли у Натча способ пропустить URL? Спасибо!

0 ответов

Другие вопросы по тегам