Как я могу очистить / мои / задобрить / щекотать данные с сайта (желательно) с OSX?

Я пытаюсь получить данные с веб-сайта.

Есть ли способ просто указать программе на URL, и он захватывает все в этом домене. Как я должен идти об этом на OSX 10.5? Если это действительно необходимо, я могу использовать Ubuntu или Windows Box в качестве последнего средства.

1 ответ

Решение

Вы можете использовать wget Команда, доступная для загрузки для Mac OS X, включенная в большинство дистрибутивов Linux, для загрузки всего содержимого веб-сайта, изображений, CSS, JavaScript, видео, файлов Flash и всего остального.

Как только у вас есть, откройте терминал. Вы, вероятно, хотите назвать это так:

wget -r -l0 -k http://www.example.com/

Это загрузит все с http://www.example.com/ доступны по ссылкам. -r опция включает рекурсивную загрузку, поэтому она загружает не только домашнюю страницу. -l Опция устанавливает, на скольких страницах он будет искать ссылки и скачивать, установив 0 как я сделал, установит его так далеко, как может. Обратите внимание, что если веб-сайт использует динамическое генерирование страниц, которое может загружать много, так как может быть много URL-адресов, указывающих на одинаковый или очень похожий контент. -k Команда необязательна и сделает wget преобразуйте все ссылки, теги изображений и т. д. в правильное местоположение на локальном компьютере, чтобы вы могли просматривать его с помощью веб-браузера на компьютере, и он будет работать правильно.

Обратите внимание, что он будет загружать файлы только с www.example.com, а не с других доменов. Если вам нужно перейти на другие домены, используйте -H включите, а затем используйте опцию -D переключитесь, чтобы определить другие домены для загрузки (например, -D comments.example.com,beta.example.com). Будьте осторожны, если вы оставите -D переключить и установить -l в 0 / бесконечность вы можете очень хорошо попробовать и скачать всю всемирную паутину!

Еще один переключатель, который может быть полезен, это -N переключатель, который установит метку времени в локальном файле на время, предоставленное HTTP Last-Modified заголовок на сервере, а не загружать файлы, которые не были изменены при последующих загрузках.

Для получения дополнительной информации обратитесь к wget документация

Другие вопросы по тегам