Мониторинг 1000+ сайтов на предмет изменений за месяц
Мне нужно отслеживать более 1000 конкретных ссылок в течение одного месяца, чтобы увидеть, изменился ли их контент, и мне интересно, смогу ли я как-нибудь это автоматизировать. Одна идея состояла в том, чтобы просто загружать эти сайты время от времени в течение одного месяца и сравнивать исходные файлы. Если я пойду по этому пути, знаете ли вы, ребята, инструмент (расширение для браузера?), Который бы облегчил такую загрузку? Я пробовал HTTrack, но он терпит неудачу после первых 100 ссылок или около того. В качестве альтернативы (бесплатный?) Веб-сервис, который может отслеживать набор веб-сайтов, также может работать. Я использовал https://visualping.io/ раньше, но он не предназначен для тысяч ссылок.
1 ответ
Интересно, смогу ли я как-нибудь автоматизировать это?
Вряд ли это необходимо, но да, вы можете написать несколько простых сценариев.
ребята, вы знаете инструмент... который бы облегчил такую загрузку?
Wget, Curl, и т. д.
Вы можете поместить 1000 конкретных URL-адресов в текстовый файл, создать два каталога, перейти в первый каталог и использовать такой инструмент, как wget
с -i
возможность прочитать список URL-адресов и получить их. Через месяц повторите это во втором каталоге, используйте diff, например diff -r /directory1 /directory2
чтобы найти какие-либо изменения.
Будьте осторожны при использовании рекурсивных опций, они могут перегружать сервер и блокировать вас или могут перегружать ваш компьютер.
Я бы попробовал сначала с небольшим набором URL (например, 2, затем 10, затем 1000)
Более дешевым вариантом может быть использование запросов HTTP HEAD и доверие к серверу, который знает, был ли изменен ресурс.
Видите запрос Wget HEAD?