Описание тега web-crawler

2 ответа

Может ли хранение 300 тыс. Файлов в одной папке вызвать проблемы?

Я сканирую большой веб-сайт (более 200 тыс. Страниц) с помощью wget (есть ли лучший инструмент, кстати?). Wget сохраняет все файлы в один каталог. Раздел HFS (я думаю), это вызовет проблемы, если у меня есть все файлы в одном каталоге? Предполагая, …
12 апр '11 в 13:08
2 ответа

Сканирование в Интернете / сканирование определенной книги Google

Для своей работы мне нужно почистить текст из большой книги в Google Книгах. Эта книга очень старая и не защищена авторским правом. Книга - это газета мира. Мы будем помещать текст в базу данных, поэтому нам нужен необработанный текст, а не PDF. Я у…
28 авг '13 в 14:09
0 ответов

wget - ограничить количество следующих ссылок

Я хочу сделать зеркало веб-сайта, но ограничить отслеживание только конкретными ссылками. Команда: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl http://www.linuxmagazine.pl/index.php/magazine/archiwum…
26 мар '15 в 12:06
1 ответ

WGT загружает все файлы, кроме изображений, которые я хочу

У меня проблемы с использованием Wget для загрузки изображений из галереи. как начало я использую страницу обзора. у него есть большие пальцы, которые ссылаются на отдельные страницы с большими изображениями. вот скрипт, который я использую: wget --…
08 авг '12 в 16:43
5 ответов

Сканирование сайта / паук, чтобы получить карту сайта

Мне нужно получить целую карту сайта в формате, подобном: http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ Мне нужно, чтобы он был основан на ссылках (без ф…
03 сен '12 в 14:23
1 ответ

Сохранить веб-страницу со всем связанным контентом

Я пытаюсь понять, как я могу сохранить веб-страницу со всеми связанными файлами, например: http://docs.oasis-open.org/ubl/os-UBL-2.0/xsd/ Я хочу сохранить все файлы в каталоге, вроде сканера, но более ограниченного и, если возможно, в Firefox
30 ноя '15 в 09:36
2 ответа

Является ли веб-сайт, который нигде не связан, полностью скрыт?

Я хочу создать веб-страницу, доступную для просмотра только мне и другому человеку. Я не хочу использовать какую-либо аутентификацию на нем (имя пользователя / пароль, сертификаты и т. Д.). У меня вопрос: если я обслуживаю веб-сайт со своего собстве…
31 авг '18 в 20:13
3 ответа

Извлечение ссылок из числового диапазона веб-страниц

Я хотел бы извлечь ссылки из числовой последовательности страниц, как это: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html На выходе мне нужен текстовый файл с URL-а…
14 авг '14 в 15:44
1 ответ

wget решает не загружаться из-за черного списка

Я пытаюсь сделать полную копию веб-сайта; например, http://vfilesarchive.bgmod.com/files/ я бегу wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ и получать, например Deciding whether to enqueue "http://vfilesarchive…
27 янв '19 в 03:38
3 ответа

Как внедрить механизмы противоскребания для моего сайта на основе Amazon S3?

У меня есть несколько статических веб-страниц, размещенных на Amazon S3, которые очень часто обновляются. Я хочу внедрить несколько механизмов предотвращения взлома, таких как запрет IP-адресов, которые делают слишком много запросов или делают запро…
1 ответ

Запишите URL в текстовый файл, соответствующий шаблону

Я пытаюсь проанализировать сайт nickjr.com, в частности URL http://www.nickjr.com/paw-patrol/videos/ для полных эпизодов. Сайт nickjr.com размещен по названию шоу, затем по играм или видео, по крайней мере, с помощью патруля лапы, поэтому URL-адрес …
14 авг '17 в 05:18
1 ответ

Как сохранить все файлы / ссылки из чата / канала телеграммы?

Я хочу сохранить ВСЕ http(s) ссылки и / или файлы, опубликованные в каком-либо телеграммном чате (частном или групповом) или канале (например, в списке рассылки). Мне нужен аналог TumblOne (для Tumblr) VkOpt (возможность сохранять историю чата в vk.…
1 ответ

Wget получает ответ 403

Я использую API, который имеет некоторое количество запросов в час. Но мой скрипт делает все за один раз, поэтому я теряю около 1/3 запросов, потому что получаю 403. Есть ли способ проверить реакцию wget, и если я получу 403, подождите 5 минут и пов…
07 ноя '13 в 10:41
2 ответа

Почему @ в адресе электронной почты иногда пишется как [at] на веб-страницах?

Почему @ иногда на веб-страницах пишется как [at]? Есть ли какая-то конкретная причина?
14 ноя '13 в 16:38
1 ответ

Почему мой личный веб-сайт привлекает посетителей по таинственным URL-адресам?

Недавно я обновил журнал посещений моего сайта и, убедившись, что он работает должным образом, заметил, что я получаю посетителей по URL-адресам, которые мне не принадлежат. Я был удивлен, увидев даже ботов, так как сайт не принадлежит Google и не с…
08 дек '14 в 00:10
1 ответ

Spider/ сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV

Я перехожу со старого сайта корзины покупок ASP на сайт Drupal/Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, это какой-то способ получить список всех ссылок со с…
02 авг '12 в 05:54
2 ответа

Как я могу собрать определенные данные с сайта

Я пытаюсь собрать данные с сайта для исследования. URL-адреса хорошо организованы в формате example.com/x, где x - это возрастающий номер, а все страницы структурированы одинаково. Мне просто нужно взять определенные заголовки и несколько цифр, кото…
1 ответ

Windows - сканировать URL и захватывать ссылки

Недавно я зарегистрировался на крупном видео-сайте в качестве премиум-члена и хочу создать список видеофайлов на сайте, чтобы я мог поместить их в свой менеджер загрузок и загрузить видео-премиум на свой жесткий диск за один раз. Я играл с Blackwido…
24 дек '12 в 17:22
1 ответ

Сканирование сайта для файлов

Привет, я хотел бы загрузить все PDF-файлы с http://www.allitebooks.com/ и использовать wget. моя команда "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -r но я считаю, что пока он не может перейти по ссылкам на поддомен, как я могу это ис…
06 янв '17 в 11:14
0 ответов

Wget для создания карты сайта, включая страницы без названия?

Я хотел бы нанести на карту веб-сайт, на котором в настоящее время нет оглавления. Однако на некоторых страницах также отсутствует строка TITLE в разделе HEAD. Я нашел следующий код, но он не включает, как проверить НАЗВАНИЕ, и, возможно, заменить п…
24 мар '19 в 10:53