Как мы можем узнать, какие URL можно сканировать, как robots.txt сообщает, если мы не знаем, к какой папке принадлежит URL?
Я собираюсь кодировать веб-сканер, но прежде чем я хочу узнать, что будет возможно сканировать.
Скажите, если я ошибаюсь, но на веб-сайтах robots.txt указаны папки, а не URL-адреса, которые можно и нельзя сканировать, так как мы можем узнать, к какой папке принадлежит URL-адрес?
1 ответ
robots.txt
Файл исключает префиксы каталогов. Например, если у вас есть robots.txt
исключая каталог /foo
, затем /foo/bar.html
нельзя сканировать
Для любого URL, который вы хотите сканировать, вы должны проверить, совпадает ли его путь с одной из директив в файле роботов.
См. Документацию Google для получения дополнительной информации и примеров:
Значение пути используется в качестве основы для определения того, применяется ли правило к определенному URL-адресу сайта. За исключением подстановочных знаков, путь используется для соответствия началу URL-адреса (и любых допустимых URL-адресов, начинающихся с того же пути).
Обратите внимание, что URL-адреса не обязательно должны указывать фактические каталоги на сервере. /download.php?what=thestuff
может быть функционально эквивалентным /download/thestuff
и указать на тот же ресурс.