Spider/ сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV
Я перехожу со старого сайта корзины покупок ASP на сайт Drupal/Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, это какой-то способ получить список всех ссылок со старого сайта.
Предпочтительно, чтобы результаты имели заголовок страницы, и в идеале я мог бы дать ему какой-то способ вернуть другие данные со страницы (например, селектор CSS).
Я бы предпочел, чтобы это было в OS X, но я тоже могу использовать приложения для Windows.
Я попробовал целостность, но ее вывод почти невозможно расшифровать, плюс он, кажется, не работает хорошо.
1 ответ
Если вы не против написания скриптов на Perl...
Этот модуль реализует настраиваемый механизм веб-обхода для робота или другого веб-агента. Получив начальную веб-страницу (URL), робот получит содержимое этой страницы и извлечет все ссылки на странице, добавив их в список URL-адресов для посещения.