Как найти и скопировать все строки, начинающиеся с ( "http://www.") На определенном веб-сайте (1000 страниц)?

Question

Как найти и скопировать все строки, начинающиеся с ( "http://www.") На определенном веб-сайте (1000 страниц)?

Я ищу ссылки (не URL-адреса страниц), написанные в объявлениях о работе на определенном веб-сайте. Я хотел бы отсканировать веб-сайт и скопировать все строки, начинающиеся с http или www, на ВСЕХ страницах (около 1000)

Я на Windows 7. Я не знаю, как запускать сценарии. Кто-нибудь может предложить эффективный способ сделать это?

Должен ли я сначала загрузить все HTML-страницы? Если да, то какое программное обеспечение я должен использовать для загрузки, сканирования и копирования строки?

-1

website data-mining

Источник

M Singh 17 мар '12 в 09:25

3 ответа

Другие вопросы по тегам website data-mining

Valentin 17 мар '12 в 09:35 2012-03-17 09:35 · Answer 1 · 2012-03-17 09:35

Если учесть, что запуск сценариев для вас не вариант, вы можете воспользоваться подходом для загрузки исходного кода страницы (щелкните правой кнопкой мыши -> загрузить исходный код). Затем вы можете открыть его, например, с помощью блокнота и выполнить поиск содержимого, нажав [Ctrl] + [F].

Другой способ будет использовать URLStringGrabber: http://www.nirsoft.net/utils/url_string_grabber.html

integratorIT 17 мар '12 в 10:01 2012-03-17 10:01 · Answer 2 · 2012-03-17 10:01

Вы можете легко добиться этого в Opera, просто откройте левую панель - Ссылки, и вы можете скопировать их все в буфер обмена.

1

Источник

integratorIT 17 мар '12 в 10:01

wizzwizz4 18 июн '17 в 08:05 2017-06-18 08:05 · Answer 3 · 2017-06-18 08:05

Я считаю, что программа WinHTTrack будет полезна для этой цели. Существует комбинация параметров, которые позволяют загружать одну страницу, но изменять URL-адреса на определенный, абсолютный формат, чтобы впоследствии можно было выполнять поиск в необработанном HTML-коде и гарантировать почти все ссылки.

После задания имени зеркала и перехода к следующему экрану измените действие на "Загрузить веб-сайты".
Укажите URL-адрес страницы, содержащей дополнительные веб-страницы, в поле "Веб-адреса: (URL)".
Выберите Параметры -> Только эксперты
Измените "Перезаписать ссылки: внутренние / внешние" на "Абсолютный URI / Абсолютный URL" (или, если вы используете страницу только для очистки URL-адресов, "Абсолютный URL / Абсолютный URL").
Нажмите ОК, затем Далее, затем, как обычно, перемещайтесь по опциям.

Более подробную информацию о HTTrack можно найти в теге httrack.