Описание тега web-crawler
2
ответа
Может ли хранение 300 тыс. Файлов в одной папке вызвать проблемы?
Я сканирую большой веб-сайт (более 200 тыс. Страниц) с помощью wget (есть ли лучший инструмент, кстати?). Wget сохраняет все файлы в один каталог. Раздел HFS (я думаю), это вызовет проблемы, если у меня есть все файлы в одном каталоге? Предполагая, …
12 апр '11 в 13:08
2
ответа
Сканирование в Интернете / сканирование определенной книги Google
Для своей работы мне нужно почистить текст из большой книги в Google Книгах. Эта книга очень старая и не защищена авторским правом. Книга - это газета мира. Мы будем помещать текст в базу данных, поэтому нам нужен необработанный текст, а не PDF. Я у…
28 авг '13 в 14:09
0
ответов
wget - ограничить количество следующих ссылок
Я хочу сделать зеркало веб-сайта, но ограничить отслеживание только конкретными ссылками. Команда: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl http://www.linuxmagazine.pl/index.php/magazine/archiwum…
26 мар '15 в 12:06
1
ответ
WGT загружает все файлы, кроме изображений, которые я хочу
У меня проблемы с использованием Wget для загрузки изображений из галереи. как начало я использую страницу обзора. у него есть большие пальцы, которые ссылаются на отдельные страницы с большими изображениями. вот скрипт, который я использую: wget --…
08 авг '12 в 16:43
5
ответов
Сканирование сайта / паук, чтобы получить карту сайта
Мне нужно получить целую карту сайта в формате, подобном: http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ Мне нужно, чтобы он был основан на ссылках (без ф…
03 сен '12 в 14:23
1
ответ
Сохранить веб-страницу со всем связанным контентом
Я пытаюсь понять, как я могу сохранить веб-страницу со всеми связанными файлами, например: http://docs.oasis-open.org/ubl/os-UBL-2.0/xsd/ Я хочу сохранить все файлы в каталоге, вроде сканера, но более ограниченного и, если возможно, в Firefox
30 ноя '15 в 09:36
2
ответа
Является ли веб-сайт, который нигде не связан, полностью скрыт?
Я хочу создать веб-страницу, доступную для просмотра только мне и другому человеку. Я не хочу использовать какую-либо аутентификацию на нем (имя пользователя / пароль, сертификаты и т. Д.). У меня вопрос: если я обслуживаю веб-сайт со своего собстве…
31 авг '18 в 20:13
3
ответа
Извлечение ссылок из числового диапазона веб-страниц
Я хотел бы извлечь ссылки из числовой последовательности страниц, как это: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html На выходе мне нужен текстовый файл с URL-а…
14 авг '14 в 15:44
1
ответ
wget решает не загружаться из-за черного списка
Я пытаюсь сделать полную копию веб-сайта; например, http://vfilesarchive.bgmod.com/files/ я бегу wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ и получать, например Deciding whether to enqueue "http://vfilesarchive…
27 янв '19 в 03:38
3
ответа
Как внедрить механизмы противоскребания для моего сайта на основе Amazon S3?
У меня есть несколько статических веб-страниц, размещенных на Amazon S3, которые очень часто обновляются. Я хочу внедрить несколько механизмов предотвращения взлома, таких как запрет IP-адресов, которые делают слишком много запросов или делают запро…
18 фев '17 в 02:20
1
ответ
Запишите URL в текстовый файл, соответствующий шаблону
Я пытаюсь проанализировать сайт nickjr.com, в частности URL http://www.nickjr.com/paw-patrol/videos/ для полных эпизодов. Сайт nickjr.com размещен по названию шоу, затем по играм или видео, по крайней мере, с помощью патруля лапы, поэтому URL-адрес …
14 авг '17 в 05:18
1
ответ
Как сохранить все файлы / ссылки из чата / канала телеграммы?
Я хочу сохранить ВСЕ http(s) ссылки и / или файлы, опубликованные в каком-либо телеграммном чате (частном или групповом) или канале (например, в списке рассылки). Мне нужен аналог TumblOne (для Tumblr) VkOpt (возможность сохранять историю чата в vk.…
29 сен '17 в 00:14
1
ответ
Wget получает ответ 403
Я использую API, который имеет некоторое количество запросов в час. Но мой скрипт делает все за один раз, поэтому я теряю около 1/3 запросов, потому что получаю 403. Есть ли способ проверить реакцию wget, и если я получу 403, подождите 5 минут и пов…
07 ноя '13 в 10:41
2
ответа
Почему @ в адресе электронной почты иногда пишется как [at] на веб-страницах?
Почему @ иногда на веб-страницах пишется как [at]? Есть ли какая-то конкретная причина?
14 ноя '13 в 16:38
1
ответ
Почему мой личный веб-сайт привлекает посетителей по таинственным URL-адресам?
Недавно я обновил журнал посещений моего сайта и, убедившись, что он работает должным образом, заметил, что я получаю посетителей по URL-адресам, которые мне не принадлежат. Я был удивлен, увидев даже ботов, так как сайт не принадлежит Google и не с…
08 дек '14 в 00:10
1
ответ
Spider/ сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV
Я перехожу со старого сайта корзины покупок ASP на сайт Drupal/Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, это какой-то способ получить список всех ссылок со с…
02 авг '12 в 05:54
2
ответа
Как я могу собрать определенные данные с сайта
Я пытаюсь собрать данные с сайта для исследования. URL-адреса хорошо организованы в формате example.com/x, где x - это возрастающий номер, а все страницы структурированы одинаково. Мне просто нужно взять определенные заголовки и несколько цифр, кото…
12 сен '12 в 15:47
1
ответ
Windows - сканировать URL и захватывать ссылки
Недавно я зарегистрировался на крупном видео-сайте в качестве премиум-члена и хочу создать список видеофайлов на сайте, чтобы я мог поместить их в свой менеджер загрузок и загрузить видео-премиум на свой жесткий диск за один раз. Я играл с Blackwido…
24 дек '12 в 17:22
1
ответ
Сканирование сайта для файлов
Привет, я хотел бы загрузить все PDF-файлы с http://www.allitebooks.com/ и использовать wget. моя команда "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -r но я считаю, что пока он не может перейти по ссылкам на поддомен, как я могу это ис…
06 янв '17 в 11:14
0
ответов
Wget для создания карты сайта, включая страницы без названия?
Я хотел бы нанести на карту веб-сайт, на котором в настоящее время нет оглавления. Однако на некоторых страницах также отсутствует строка TITLE в разделе HEAD. Я нашел следующий код, но он не включает, как проверить НАЗВАНИЕ, и, возможно, заменить п…
24 мар '19 в 10:53