Spider/ сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV

Я перехожу со старого сайта корзины покупок ASP на сайт Drupal/Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, это какой-то способ получить список всех ссылок со старого сайта.

Предпочтительно, чтобы результаты имели заголовок страницы, и в идеале я мог бы дать ему какой-то способ вернуть другие данные со страницы (например, селектор CSS).

Я бы предпочел, чтобы это было в OS X, но я тоже могу использовать приложения для Windows.

Я попробовал целостность, но ее вывод почти невозможно расшифровать, плюс он, кажется, не работает хорошо.

1 ответ

Если вы не против написания скриптов на Perl...

Этот модуль реализует настраиваемый механизм веб-обхода для робота или другого веб-агента. Получив начальную веб-страницу (URL), робот получит содержимое этой страницы и извлечет все ссылки на странице, добавив их в список URL-адресов для посещения.

Другие вопросы по тегам