Может ли веб-сайт отличать веб-скребок от легитимного пользователя на основе, отличной от скорости обхода?
Если я уменьшу скорость веб-скребка, чтобы он соответствовал скорости человека, сможет ли третье лицо различить их? Какие еще критерии используют веб-сайты, чтобы различать пользователей и скребки?
1 ответ
Решение
Есть много критериев, которые веб-сайт может использовать для определения возможных скребков. Некоторые из них более склонны к ложным срабатываниям, чем другие.
- Пользовательский агент. Многие скребки имеют
User-Agent:
заголовок, который легко и надежно идентифицирует их. Многие из следующих характеристик также могут быть соотнесены сUser-Agent:
чтобы проверить, действительно ли поведение постулированного пользовательского агента соответствует ожидаемому от графического браузера, он может пытаться отображаться как. - Диапазоны IP. Например, бот, работающий за пределами облачного IP-адреса Google или Amazon, вероятно, автоматизирован (или узел выхода VPN).
- Время прохождения. Тривиальный бот будет посещать внутренние ссылки сайта с фиксированной задержкой между "щелчками" или с вариацией, которая настолько мала, что не может маскироваться под реального пользователя.
- Порядок обхода. Тривиальный бот будет посещать внутренние ссылки сайта в том порядке, в котором он их обнаруживает, в то время как пользователь будет посещать только небольшое количество ссылок в менее предсказуемом порядке.
- Загрузка изображений. Человек, использующий графический браузер, будет демонстрировать несколько предсказуемые всплески параллельных соединений, в некоторой степени также зависящие от доступной пропускной способности и конфигурации браузера. Но многие боты будут получать только одну страницу за раз, и, возможно, полностью обходят графику.
- Поведение JavaScript. Настоящий браузер с включенным JavaScript будет выполнять полезные нагрузки JavaScript. Некоторые чистящие боты пытаются подражать этому, но многие этого не делают, а те, которые часто делают несовершенную работу.
- Альтернативные пути. Источник HTML может содержать ссылки в разделах, которые не будут отображаться в конкретном браузере с определенной конфигурацией; но тривиальный бот будет посещать как скрытые, так и открытые ссылки.