Сайт загрузчик (кеш?) Для просмотра сайтов в автономном режиме

Существует ли переносимый способ загрузки или кэширования всех страниц веб-сайта для просмотра в автономном режиме? Завтра у меня полет по стране, и я хотел бы иметь возможность кэшировать несколько веб-страниц (в частности, страницу документации по питону ( http://docs.python.org/) и ссылку на pyqt ( http://www.riverbankcomputing.co.uk/static/Docs/PyQt4/pyqt4ref.html).

В идеале я хотел бы добавить дополнение к Firefox или что-то в этом роде, но все будет хорошо, если я смогу запустить его в Linux.

5 ответов

Решение

Я использую HTTrack.

Он позволяет вам загружать сайт World Wide Web из Интернета в локальный каталог, рекурсивно создавать все каталоги, получать HTML, изображения и другие файлы с сервера на ваш компьютер.

Я использую wget с этими опциями для зеркалирования сайта для автономного использования

wget -cmkE -np http://example.com/a/section/i/like

где

-m включает параметры зеркалирования для локального зеркалирования сайта

-c продолжает предыдущую загрузку в случае, если я уже загрузил некоторые страницы

-k преобразует абсолютные href в локальные для просмотра в автономном режиме

-E гарантирует, что файлы имеют расширение.html после загрузки.

-np загружает только объекты в / a / section / i / и не кэширует весь сайт.

Например, я хотел скачать южную документацию, но не южные билеты и т.д...

wget -cmkE -np http://south.aeracode.org/docs/index.html

Я использую Windows и запускаю wget на cygwin, но есть также и собственный порт wget для Windows.

Хотя, в вашем случае, вы можете скачать автономные документы Python из раздела документации Python

Попробуйте http://www.downthemall.net/ плагин Firefox. Я использовал его для загрузки 250 страниц PDF-файлов в более чем 20 отдельных файлах. Это очень мощный. Он имеет подстановочный / синтаксис запроса, который позволяет хирургическим путем получать только те файлы, которые вы хотите, и ни один из ненужных, которые вы не делаете.

Некоторые расширения Firefox, о которых я знаю:

  • ScrapBook

    помогает вам сохранять веб-страницы и легко управлять коллекциями. Ключевые особенности: легкость, скорость, точность и многоязычная поддержка. Основные функции:

    • Сохранить веб-страницу
    • Сохранить фрагмент веб-страницы
    • Сохранить веб-сайт
    • Организовать коллекцию так же, как закладки
    • Полнотекстовый поиск и быстрая фильтрация поиска по коллекции
    • Редактирование собранной веб-страницы
    • Функция редактирования текста /HTML, напоминающая заметки Opera
  • ScrapBook Plus

    Разница между ScrapBook Plus и ScrapBook:

    • быстрая сортировка
    • более быстрый импорт и экспорт
    • откройте окно для управления вашей коллекцией прямо из боковой панели
    • упростила работу с "Мастером комбайнов"
    • новые функции для "Захват нескольких URL-адресов" (фильтр для исключения ссылок, использование заголовка веб-сайта или заголовка ссылки в качестве нового заголовка для записи на боковой панели, указание времени ожидания для загрузки от 0 до 3 секунд, использование UTF-8 или ISO-8859-1 в качестве набора символов)
    • новое окно "Захват" (загрузка должна быть начата вручную, автоматическая прокрутка отключена)
    • 6 маркеров в редакторе
  • UnMHT

    позволяет просматривать файлы формата веб-архива MHT (MHTML) и сохранять полные веб-страницы, включая текст и графику, в одном файле MHT

  • Pocket (не расширение; встроенная функция Firefox)

    позволяет сохранять веб-страницы и видео в Pocket одним щелчком мыши. Pocket удаляет беспорядок и сохраняет страницу в чистом виде, не отвлекая внимание, и позволяет вам получить доступ к ним на ходу через приложение Pocket.

    Обратите внимание, что:

    Для сохранения и доступа к вашему списку Pocket в Firefox требуется подключение к Интернету. Автономный просмотр возможен на других устройствах с приложением Pocket.

Вы можете скачать весь сайт или часть сайта с помощью wget.

wget -r http://docs.python.org/

Посмотрите в руководстве по wget другие параметры, которые вы, возможно, захотите передать, например, чтобы ограничить использование полосы пропускания, контролировать глубину рекурсии, настроить списки исключений и т. Д.

Другой подход к просмотру в автономном режиме - использование кэширующего прокси. Wwwoffle - это та, которая обладает множеством функций, облегчающих сохранение для просмотра в автономном режиме, таких как переопределение даты истечения срока, указанного на сервере, и возможность рекурсивной предварительной выборки. (Я пользуюсь wwwoffle с моего модемного времени.)

Другие вопросы по тегам