Какое программное обеспечение необходимо для членских веб-сайтов и как они могут быть проиндексированы Google

Я замечаю, что в некоторых случаях статьи о платных новостях, похоже, индексируются Google, потому что отрывки из истории появляются в поисковой выдаче.

Тем не менее, когда я захожу на эти веб-сайты с использованием идентификатора робота-робота (Google), информация не появляется для сканирования статьи. Казалось бы, это говорит о том, что издатель каким-то образом отправляет свои статьи с платной подписью (и связанные URL-адреса) в Google, а не сканирует их. Очевидно, что такое представление было бы нетривиальным, поскольку оно должно было бы содержать как содержание статьи, так и различные метаданные, относящиеся к ней, такие как URL-адрес, на котором она находится, и срок ее действия.

Существует ли такой механизм? Если так, может ли обычный веб-мастер, такой как я, использовать это?

2 ответа

Да, это возможно

У Google есть страница под названием " Получите ваш контент в Google", которая по состоянию на сегодня, 21 мая 2018 года, представляет собой исчерпывающую справку о том, как индексировать ваш контент в Google. Здесь вы можете попробовать различные ссылки, в том числе:

  • Добавьте свой URL
  • Приложение сканирует
  • Консоль поиска
  • Руководство по поисковой оптимизации (SEO)

Этот ответ был опубликован @acejavelin два года и месяц назад в качестве комментария. Возможно, страница, на которую мы ссылались, была не такой всеобъемлющей, как сегодня, или я не понимаю, почему он не опубликовал ее в качестве полного ответа. Кроме того, я вижу, что ОП считал эту страницу "слишком мета" в то время, но сегодня это именно то, что он / она хочет.

Веб-сайты могут обнаружить поддельных Googlebots

Веб-сайты иногда не позволяют сканировать их веб-содержимое веб-браузерами, которые используют фиктивные строки агента пользователя Googlebot. Вы можете найти более подробную информацию по этому вопросу на веб-сайте Panopticlick фонда Electronic Frontier. Короче говоря, у Googlebot есть и другие функции идентификации, чем просто пользовательский агент.

Тот факт, что веб-сервер компании возвратил печально известную ошибку HTTP 404 на URL, не означает, что ресурс не существует. Это только означает, что веб-сервер решил, чтодля вас этот ресурс не существует.

Веб-сервер может идентифицировать вас как платящего клиента многими способами, главным из которых является идентификационный файл cookie, хранящийся в вашем браузере. Если файл cookie не найден, веб-сервер обычно запрашивает у вас вход в систему, а в случае успеха возвращает этот файл cookie.

Тогда возникает вопрос, почему Googlebot разрешен доступ, а вы нет?

Со временем робот Googlebot обнаружит практически любой веб-сайт, но веб-мастер может запросить раннее посещение, используя инструменты, содержащиеся в разделе Получить контент в Google. Он также может направить бота в определенные папки с помощью файла Robots.txt.

Пример такого файла:

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

Бот идентифицирует себя, используя, например, в заголовке HTTP-запроса тег агента пользователя. googlebot,

Однако предположить, что личность Googlebot не так просто. Веб-сайт может легко проверить личность бота, выполнив обратный поиск DNS на IP-адресе доступа. Возвращенное доменное имя в этом случае должно быть googlebot.comили же google.comЭто то, что вы сами не можете подделать.

Если вы полностью контролируете свой веб-сервер, например, через PHP, вы можете продублировать этот механизм и создать так называемый "веб-сайт членства". Такое программное обеспечение называется членским программным обеспечением.

Если вы не программист PHP или не желаете таких вложений своего времени, существует множество альтернативных программ с открытым исходным кодом, но также есть много коммерческих продуктов, которые будут конкурировать за ваш бизнес. Будьте очень критичны, если вы решите выбрать один, и тщательно проверьте его в Интернете для обзоров.

Для получения дополнительной информации посмотрите эти ресурсы, которые я нашел с помощью поиска (не обязательно лучшие, а некоторые носят коммерческий характер, но они помогут вам начать):

Другие вопросы по тегам