Как я могу очистить / мои / задобрить / щекотать данные с сайта (желательно) с OSX?
Я пытаюсь получить данные с веб-сайта.
Есть ли способ просто указать программе на URL, и он захватывает все в этом домене. Как я должен идти об этом на OSX 10.5? Если это действительно необходимо, я могу использовать Ubuntu или Windows Box в качестве последнего средства.
1 ответ
Вы можете использовать wget
Команда, доступная для загрузки для Mac OS X, включенная в большинство дистрибутивов Linux, для загрузки всего содержимого веб-сайта, изображений, CSS, JavaScript, видео, файлов Flash и всего остального.
Как только у вас есть, откройте терминал. Вы, вероятно, хотите назвать это так:
wget -r -l0 -k http://www.example.com/
Это загрузит все с http://www.example.com/
доступны по ссылкам. -r
опция включает рекурсивную загрузку, поэтому она загружает не только домашнюю страницу. -l
Опция устанавливает, на скольких страницах он будет искать ссылки и скачивать, установив 0
как я сделал, установит его так далеко, как может. Обратите внимание, что если веб-сайт использует динамическое генерирование страниц, которое может загружать много, так как может быть много URL-адресов, указывающих на одинаковый или очень похожий контент. -k
Команда необязательна и сделает wget
преобразуйте все ссылки, теги изображений и т. д. в правильное местоположение на локальном компьютере, чтобы вы могли просматривать его с помощью веб-браузера на компьютере, и он будет работать правильно.
Обратите внимание, что он будет загружать файлы только с www.example.com, а не с других доменов. Если вам нужно перейти на другие домены, используйте -H
включите, а затем используйте опцию -D
переключитесь, чтобы определить другие домены для загрузки (например, -D comments.example.com,beta.example.com
). Будьте осторожны, если вы оставите -D
переключить и установить -l
в 0
/ бесконечность вы можете очень хорошо попробовать и скачать всю всемирную паутину!
Еще один переключатель, который может быть полезен, это -N
переключатель, который установит метку времени в локальном файле на время, предоставленное HTTP Last-Modified
заголовок на сервере, а не загружать файлы, которые не были изменены при последующих загрузках.
Для получения дополнительной информации обратитесь к wget
документация