Сколько весит весь интернет

Измерения в байтах
ГОСТ 8.417—2002			Приставки СИ		Приставки МЭК
Название	Обозначение	Степень	Название	Степень	Название	Символ		Степень
байт	Б	10 0	—	10 0	байт	B	Б	2 0
килобайт	Кбайт	10 3	кило-	10 3	кибибайт	KiB	КиБ	2 10
мегабайт	Мбайт	10 6	мега-	10 6	мебибайт	MiB	МиБ	2 20
гигабайт	Гбайт	10 9	гига-	10 9	гибибайт	GiB	ГиБ	2 30
терабайт	Тбайт	10 12	тера-	10 12	тебибайт	TiB	ТиБ	2 40
петабайт	Пбайт	10 15	пета-	10 15	пебибайт	PiB	ПиБ	2 50
эксабайт	Эбайт	10 18	экса-	10 18	эксбибайт	EiB	ЭиБ	2 60
зеттабайт	Збайт	10 21	зетта-	10 21	зебибайт	ZiB	ЗиБ	2 70
йоттабайт	Ибайт	10 24	йотта-	10 24	йобибайт	YiB	ЙиБ	2 80

Основной документ Международной системы единиц «Брошюра СИ» рекомендует использовать приставку «зетта-» только для обозначения 10 21 , а для величины 2 70 байт применять наименование зебибайт, введённое Международной электротехнической комиссией [1] [2] .

Международная электротехническая комиссия [ править | править код ]

Название «зеттабайт» широко используется, но при этом не принято ни Генеральными конференциями по мерам и весам, ни Международным бюро мер и весов. Тем не менее, в документе «Брошюра СИ» указано, что не рекомендуется использовать приставку «зетта-» для обозначения двоичных величин (2 70 ), а в случае необходимости рекомендуется использовать наименование зебибайт [3] . В СИ зетта— означает умножение на 10 21 .

По предложению Международной электротехнической комиссии, правильной для 2 70 является двоичная приставка зеби-.

Самый первый компьютер разменял восьмой десяток лет, но по сравнению даже с самым простым современным телефоном он не умел ничего. Он тратил на простые математические операции по несколько секунд и всю информацию получал с перфорированных лент, не имел собственной оперативной и встроенной памяти. Сегодня мы в мгновение ока обмениваемся сообщениями и даже мультимедийными файлами через крошечное устройство — смартфон, который не привязан ни к чему.

Мы даже не задумываемся, какой объем данных генерируем в течение дня, и где все эти данные хранятся. Благодаря интернету в 2017 году Google в день обрабатывает больше данных, чем было написано во всех литературных работах на всех языках до появления интернета, и это при том, что к паутине подключена только половина планеты.

Безусловно, стремительный рост данных подтолкнул к появлению сайтов и распространению интернета — ведь одно дело копить информацию, другое — иметь возможность ею делиться. Первый сайт появился в 1990 году и содержал исключительно текстовую информацию — описание технологии World Wide Web.

Первые годы количество сайтов в интернете росло в два раза за каждые три месяца. К июню 1993 года в мире существовало уже 130 сайтов. А к декабрю — 623. К началу 1996 года количество сайтов в интернете достигло 100 000. В 2014 году их стало больше миллиарда, а к нынешнему времени — 1,2 млрд. Это примерно в шесть раз меньше, чем людей на Земле, и в три раза меньше, чем интернет-пользователей (3,6 млрд). То есть, грубо говоря, на каждый сайт в интернете приходится 3 интернет-пользователя.

Если первое время интернет был местом для интеллектуалов и снобов, хакеров и пионеров технологий, которые потребляли и создавали контент, то сегодня интернет — это социальные сети, YouTube-видео, сайты для взрослых и другие не самые узкоспециализированные активности.

Сайт internetlivestats.com рассказывает о том, что происходит в интернете в режиме реального времени — за последнюю секунду, день или год.

Но вернемся к трафику. По данным Google, в 2008 году компания обрабатывала 20 петабайт данных в день. Сегодня аналогичный результат достигается меньше чем за 8 минут. За последний год эта цифра достигла 636 эксабайтов! На это было потрачено 554 524 478 мегаватт-часов.

Для сравнения все сезоны сериала «Игра престолов» весят около 70 Гб в разрешении видео 1024х576 — столько трафика обрабатывается Google за пару секунд.

Количество поисковых запросов, обрабатываемых Google:

1998 г. — 9800 в день, 3,2 млн в год;
2007 г. — 1,2 млрд в день, 438 млрд в год;
2016 г. — 3 млрд в день, 1,2 трлн в год.

Предполагается, что к 2020 году на планете будет 50 млрд подключенных устройств, из них 6,1 млрд — смартфоны. Население Земли достигнет 7,75 млрд (то есть в 6,5 раз меньше), и каждый житель будет генерировать 1,7 Мб информации в секунду. Примерно треть всех данных будет храниться в облаке. В 2013 общий объем данных в интернете составлял 4,3 зеттабайта, каждые два года он удваивается.

Предположительно, к 2020 году этот показатель возрастет до 44 зеттабайтов. Сложно сравнить это с чем-то осязаемым. Но попробуйте представить, что разместить их все можно будет, например, на 4,4 млрд 10-терабайтных накопителях.

Интернет-гиганты строят огромные дата-центры для хранения информации. Обычно данные об их расположении, оснащении и размерах хранятся в секрете. В лучшем случае, в интернете можно найти фотографии фасадов. Но Google три года назад приоткрыли завесу тайны над одним из своих дата-центров и объемами инвестиций в него.

Дата-центр Google, где находятся серверы с Youtube-роликами и где обрабатываются поисковые запросы, об объемах которых мы уже писали выше, занимает 10 000 квадратных метров. Но Google — огромная корпорация с миллиардными доходами, которая может себе позволить столько дата-центров и такого размера, как ей нужно.

На новый дата-центр в Орегоне площадью 15 240 кв. м компания потратила $600 млн в 2015 году. К 2020-му году, несмотря на удешевление технологий, скорее всего расходы будут еще выше. Apple строит дата-центр в Ирландии стоимостью $1 млрд и площадью 500 акров. От тепла, которое он будет вырабатывать, будут отапливаться близлежащие дома. В компании планируют покрыть этим дата-центром потребности по обеспечению своими сервисами европейских пользователей на ближайшие 10-15 лет.

Но для обычных пользователей, которые как раз и генерируют основной объем, эта информация едва ли важна. Кто задумывается о том, где конкретно YouTube хранит видео, а Instagram – фотографии, сколько это весит и во сколько обходится компаниям? Разработчики уже подумали об этом, чтобы пользователи комфортно занимались своими делами в их сервисах.

Другое дело бизнес – сами сервисы, торговые сети, интернет-магазины. Развитие технологий идет рука об руку с ростом объема данных, и чем дальше, тем больше их будет. И тут речь идет не только о картиночках, сообщениях и прочем UGC, но и о данных о поведении пользователей, Big Data.

Big Data — это нефть нашего времени, она позволяет делать многие вещи, среди которых — адаптация сервисов и даже городской инфраструктуры под потребности людей (об этом мы писали, например, тут), производить более точные измерения (например, фактического потока туристов в городе, о чем мы рассказывали тут), анализировать поведение пользователей и делать на основании этих данных более точные прогнозы. Во всех примерах выше речь идет не о заморских странах, а об украинских государственных проектах и стартапах, которые уже становятся более эффективными и в будущем оставят конкурентов далеко позади.

Несмотря на то, что Big Data — это уже реальность и в Украине, многие бизнесы до сих пор думают, что это дорого и для этого нужен некий суперкомпьютер. По факту есть две разные статьи расходов. Первая — это место под хранение данных. Оно нужно постоянно, но стоит сравнительно недорого. Вторая — анализ данных. Для этого нужны большие вычислительные мощности, которые как раз стоят дорого. Но при этом потребность в них нерегулярная — только на этапе анализа, а все остальное время ресурсы просто простаивают.

Современные технологии позволяют обрабатывать Big data в облаке, комбинируя публичные и частные облака — то есть используя гибридное облако. Частные облака подходят в том случае, когда доступ к ресурсу должен быть постоянным — например, когда речь идет о хранении данных. В таком случае есть смысл в том, чтобы строить свою инфраструктуру. Публичные — когда ресурсы требуются время от времени. В частности, их анализе и построении прогнозов. Их выгоднее «покупать» в публичном облаке, оплачивая только используемый ресурс.

Успех работы с облачными мощностями зависит не столь от производительности и мощности оборудования, на котором размещены данные, сколько в грамотно разработанной стратегии. Важно правильно поставить цель и определиться со стратегией работы в облаке — как на данном облаке будут работать аппликации, базы данных, какая сетевая и физическая инфраструктура сможет реализовать облачные нагрузки и работать без простоев, какими процессами будет управлять технический персонал провайдера, а какими-собственные сотрудники.

Гибридное облако является удобным решением для тех компаний, которые по какой-то причине не могут или не хотят отказаться от частного облака (например, по причинам безопасности), но в какой-то момент появляется необходимость выделить задачи с повышенной производительностью в публичное облако для быстрого наращивания мощностей. Такая модель облака помогает компаниям без предварительного опыта не только быстрее адаптироваться к облачной среде, но и подстраховаться на случай неожиданного роста больших данных. В среднем бизнес, максимально использующий возможности арендованного облака вне зависимости от его типа, может в течение 5 лет достичь снижение общих IT-расходов на 40%.

В материалах рубрики использованы сообщения следующих изданий: «New Scientist», «Economist» и «Fortean Times» (Англия), «Bild der Wissenschaft» и «Na-tur und Kosmos» (Германия), «Discover», «Psychology Today», «Skeptical Inquirer» и «Wired» (США), «Qa m’interesse», «Le Journal du CNRS», «La Recherche», «Science et Vie» и «Science et Vie Junior» (Франция), а также сообщения агентств печати и информация из Интернета.

Этим вопросом задались сотрудники американского научно-популярного журнала «Дискавер». Причём интересовал их не вес «железа» (серверов, компьютеров, подземных и подводных кабелей и прочего оборудования), а вес информации, ежедневно проходящей через Всемирную сеть, — потоков электронных писем, фотографий, видео-фрагментов, веб-страниц, музыкальных пьес, клипов и прочих документов, переведённых в цифровую форму, в поток единиц и нулей. Вот как они рассуждали.

Длиннейшая цепочка единиц и нулей, в которой зашифрован передаваемый документ, для путешествия по сети разбивается на пакеты размером от нескольких десятков до нескольких сотен байт. К каждому пакету цепляется ещё и адрес, куда его слать, и номер, позволяющий на месте получения правильно собрать пакеты в единое целое. По дороге эти пакеты проходят через множество компьютеров, и в каждом они ненадолго задерживаются в памяти и анализируются; затем определяется их дальнейший путь, и они пересылаются дальше.

За вес Интернета примем вес электронов, накапливающихся в памяти компьютеров. Микросхема оперативной памяти представляет собой комплекс из миллионов микроскопических конденсаторов. Когда такой конденсатор заряжен, в нём записана единица, не заряжен — ноль. Заряженный конденсатор содержит порядка 40 тысяч электронов (это очень мало: через нить стоваттной электролампы за секунду протекает около 5,7.10 18 электронов).

Если эту небольшую статью послать по электронной почте, она займёт около 25 килобайт (только текст, без картинки). В килобайте 1024 байт, в байте — 8 бит. Следовательно, объём статьи в битах — 205 000. Можно считать, что из них половина единицы, половина — нули. Значит, единиц 102 500, и каждая изображается 40 тысячами электронов. В целом на запись этой статьи пошло примерно 4 миллиарда электронов. Масса электрона 9,11.10 28 грамма, умножьте — и вы получите массу данного текста в памяти компьютера.

Но это только одно электронное письмо. Согласно статистике (разумеется, приблизительной), 75% всей пересылаемой информации по Интернету приходится на обмен файлами между пользователями сети, а из этих файлов, в свою очередь, 59% приходится на видеофайлы, 33% — на музыку и только 9% на электронные письма, включая спам — непрошеную рекламу. В сумме получается около 40 петабайт пересылаемой за сутки информации, или 40.10 15 байт: четвёрка и за ней 16 нулей. Если принять эту величину (которая, как и все упомянутые здесь числа, кроме массы электрона, весьма приблизительна), то вся пересылаемая информация весит 0,0057 миллиграмма. И ещё треть от этого веса надо добавить, если мы хотим учесть не только обмен файлами между пользователями, но и информацию, запрашиваемую у сайтов.

Насколько этот результат имеет отношение к реальности — неясно, но, по крайней мере, он достаточно любопытен.