Искать ключевое слово точно только в определенном списке веб-страниц?
У меня есть список из 307 URL-адресов веб-страниц. Можно ли сказать Google (или другой поисковой системе) ТОЧНО искать определенное ключевое слово ТОЛЬКО на этих 307 веб-сайтах?
Я прочитал несколько советов, которые говорят, чтобы циклически проходить по списку с помощью сценария или аналогичного и выполнять поиск Google для каждого элемента списка. Но не заставит ли это Google думать, что вы бот, и заблокировать поиски?
Другой предложенный метод состоял в том, чтобы загрузить эти 307 веб-страниц с помощью wget (возможно, с использованием скрипта) или аналогичных программ, а затем выполнить локальный поиск на этих загруженных веб-страницах. Но это займет много времени, в то время как поиск в Google будет почти мгновенным.
Разве у Google нет встроенного метода для поиска по списку URL-адресов?
1 ответ
Здесь задают несколько вопросов, я постараюсь ответить на них в правильном порядке.
Можно ли сказать Google (или другой поисковой системе) ТОЧНО искать определенное ключевое слово ТОЛЬКО на этих 307 веб-сайтах?
Посмотрите на параметры поиска Google. Вы можете найти точный термин, цитируя его "вот так". Затем вы можете фильтровать по домену (не так, как URL!) С помощью site:
вариант. В вашем случае вы должны построить строку поиска в следующем формате:
"keyword" site:site1.com site:site2.com ...site:site307.com
... прокручивать список с помощью скрипта... Но разве Google не считает вас ботом?
Обычный подход при выполнении нескольких поисков в Google с помощью сценария заключается во вставке (возможно, случайных) задержек, чтобы не выглядеть подозрительно.
... скачать эти 307 веб-страниц с помощью wget... Это займет много времени.
Если вам нужно время от времени проверять эти веб-сайты, вы можете сохранить локальную копию веб-страниц и периодически обновлять их; локальный поиск должен быть очень быстрым. В противном случае Google будет работать быстрее, потому что он работает с кэшированными результатами и не должен ждать подключения и загрузки. Но, если сайт не работает или не испытывает серьезных проблем, он должен закончиться через 30 секунд или около того. Предположим, у вас есть список URL-адресов в файле с именем list.txt
, вам просто нужно запустить:
cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'
чтобы увидеть соответствующее содержимое или:cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'
для URL или:cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'
чтобы показать оба.
Разве у Google нет встроенного метода для поиска по списку URL-адресов?
Да, есть Пользовательский поиск:
С помощью пользовательского поиска Google вы можете:
- Создавайте пользовательские поисковые системы, которые выполняют поиск по указанной коллекции сайтов или страниц.