Загрузка / обновление веб-страниц, перечисленных в карте сайта XML

Я ищу инструмент FLOSS, который загружает все страницы (и встроенные ресурсы, например изображения), связанные в карте сайта XML (созданной в соответствии с http://www.sitemaps.org/).

Инструмент должен регулярно сканировать карту сайта и искать новые и удаленные URL-адреса и изменения в lastmod элемент. Поэтому всякий раз, когда страница добавляется / удаляется / обновляется, инструмент должен применить изменения.

Некоторые файлы Sitemap отображают вложенные карты сайта в sitemapindexsitemap, Инструмент должен понимать это и загружать все связанные вложенные карты сайта и искать там URL-адреса.


Я знаю, что есть инструменты, которые позволяют мне извлекать все URL из карты сайта, чтобы я мог передать их в wget или аналогичные инструменты (см., Например: Извлечение ссылок из карты сайта (xml)). Но это не поможет получить уведомление об обновлениях страниц. Отслеживание самих веб-страниц на наличие обновлений не работает, потому что "вторичный" контент на страницах меняется ежедневно, но lastmod обновляется только при изменении соответствующего контента.

1 ответ

Вы пытались написать это с помощью wget и cron? Посмотрите на Wget's --spider флаг. Похоже, это все, что вам нужно, кроме cron, чтобы запускать его время от времени.

Другие вопросы по тегам