Пакетная загрузка страниц из вики без специальных страниц
Время от времени я нахожу в Интернете некоторую документацию, которая мне нужна для автономного использования на ноутбуке. Обычно я запускаю wget и получаю весь сайт.
Однако многие проекты теперь переходят на вики, и это означает, что я также загружаю каждую версию и каждую ссылку "отредактируй меня".
Есть ли какой-либо инструмент или какая-либо конфигурация в wget, чтобы я, например, загружал только файлы без строки запроса или с определенным регулярным выражением?
Ура,
Кстати, в wget есть очень полезный ключ -k, который преобразует любые ссылки внутри сайта в своих локальных аналогов. Это было бы еще одно требование. Пример: загрузка страниц http://example.com/. Затем все ссылки на "/..." или " http://example.com/..." должны быть преобразованы в соответствии с загруженным аналогом.
2 ответа
Со страницы руководства wget:
-R rejlist --reject rejlist
Укажите разделенные запятыми списки суффиксов или шаблонов имен файлов для принятия или отклонения. Обратите внимание, что если какой-либо из подстановочных знаков *,?, [Или] появится в элементе acclist или rejlist, он будет рассматриваться как шаблон, а не как суффикс.
Кажется, это именно то, что вам нужно.
Примечание: чтобы уменьшить нагрузку на вики-сервер, вы можете посмотреть флаги -w и --random-wait.
Большинство из них недовольны этим, и Википедия активно закрывает их robots.txt. Я хотел бы придерживаться http://en.wikipedia.org/wiki/Special:Export