Как мы можем узнать, какие URL можно сканировать, как robots.txt сообщает, если мы не знаем, к какой папке принадлежит URL?

Question

Как мы можем узнать, какие URL можно сканировать, как robots.txt сообщает, если мы не знаем, к какой папке принадлежит URL?

Я собираюсь кодировать веб-сканер, но прежде чем я хочу узнать, что будет возможно сканировать.

Скажите, если я ошибаюсь, но на веб-сайтах robots.txt указаны папки, а не URL-адреса, которые можно и нельзя сканировать, так как мы можем узнать, к какой папке принадлежит URL-адрес?

1

web-crawler robots.txt

Источник

Yung Ab 21 янв '19 в 13:53

1 ответ

Решение

Другие вопросы по тегам web-crawler robots.txt

slhck 21 янв '19 в 14:01 2019-01-21 14:01 · Accepted Answer · 2019-01-21 14:01

robots.txt Файл исключает префиксы каталогов. Например, если у вас есть robots.txt исключая каталог /foo, затем /foo/bar.html нельзя сканировать

Для любого URL, который вы хотите сканировать, вы должны проверить, совпадает ли его путь с одной из директив в файле роботов.

См. Документацию Google для получения дополнительной информации и примеров:

Значение пути используется в качестве основы для определения того, применяется ли правило к определенному URL-адресу сайта. За исключением подстановочных знаков, путь используется для соответствия началу URL-адреса (и любых допустимых URL-адресов, начинающихся с того же пути).

Обратите внимание, что URL-адреса не обязательно должны указывать фактические каталоги на сервере. /download.php?what=thestuff может быть функционально эквивалентным /download/thestuff и указать на тот же ресурс.