Измерения в байтах | ||||||||
---|---|---|---|---|---|---|---|---|
ГОСТ 8.417—2002 | Приставки СИ | Приставки МЭК | ||||||
Название | Обозначение | Степень | Название | Степень | Название | Символ | Степень | |
байт | Б | 10 0 | — | 10 0 | байт | B | Б | 2 0 |
килобайт | Кбайт | 10 3 | кило- | 10 3 | кибибайт | KiB | КиБ | 2 10 |
мегабайт | Мбайт | 10 6 | мега- | 10 6 | мебибайт | MiB | МиБ | 2 20 |
гигабайт | Гбайт | 10 9 | гига- | 10 9 | гибибайт | GiB | ГиБ | 2 30 |
терабайт | Тбайт | 10 12 | тера- | 10 12 | тебибайт | TiB | ТиБ | 2 40 |
петабайт | Пбайт | 10 15 | пета- | 10 15 | пебибайт | PiB | ПиБ | 2 50 |
эксабайт | Эбайт | 10 18 | экса- | 10 18 | эксбибайт | EiB | ЭиБ | 2 60 |
зеттабайт | Збайт | 10 21 | зетта- | 10 21 | зебибайт | ZiB | ЗиБ | 2 70 |
йоттабайт | Ибайт | 10 24 | йотта- | 10 24 | йобибайт | YiB | ЙиБ | 2 80 |
Основной документ Международной системы единиц «Брошюра СИ» рекомендует использовать приставку «зетта-» только для обозначения 10 21 , а для величины 2 70 байт применять наименование зебибайт, введённое Международной электротехнической комиссией [1] [2] .
Международная электротехническая комиссия [ править | править код ]
Название «зеттабайт» широко используется, но при этом не принято ни Генеральными конференциями по мерам и весам, ни Международным бюро мер и весов. Тем не менее, в документе «Брошюра СИ» указано, что не рекомендуется использовать приставку «зетта-» для обозначения двоичных величин (2 70 ), а в случае необходимости рекомендуется использовать наименование зебибайт [3] . В СИ зетта— означает умножение на 10 21 .
По предложению Международной электротехнической комиссии, правильной для 2 70 является двоичная приставка зеби-.
Самый первый компьютер разменял восьмой десяток лет, но по сравнению даже с самым простым современным телефоном он не умел ничего. Он тратил на простые математические операции по несколько секунд и всю информацию получал с перфорированных лент, не имел собственной оперативной и встроенной памяти. Сегодня мы в мгновение ока обмениваемся сообщениями и даже мультимедийными файлами через крошечное устройство — смартфон, который не привязан ни к чему.
Мы даже не задумываемся, какой объем данных генерируем в течение дня, и где все эти данные хранятся. Благодаря интернету в 2017 году Google в день обрабатывает больше данных, чем было написано во всех литературных работах на всех языках до появления интернета, и это при том, что к паутине подключена только половина планеты.
Безусловно, стремительный рост данных подтолкнул к появлению сайтов и распространению интернета — ведь одно дело копить информацию, другое — иметь возможность ею делиться. Первый сайт появился в 1990 году и содержал исключительно текстовую информацию — описание технологии World Wide Web.
Первые годы количество сайтов в интернете росло в два раза за каждые три месяца. К июню 1993 года в мире существовало уже 130 сайтов. А к декабрю — 623. К началу 1996 года количество сайтов в интернете достигло 100 000. В 2014 году их стало больше миллиарда, а к нынешнему времени — 1,2 млрд. Это примерно в шесть раз меньше, чем людей на Земле, и в три раза меньше, чем интернет-пользователей (3,6 млрд). То есть, грубо говоря, на каждый сайт в интернете приходится 3 интернет-пользователя.
Если первое время интернет был местом для интеллектуалов и снобов, хакеров и пионеров технологий, которые потребляли и создавали контент, то сегодня интернет — это социальные сети, YouTube-видео, сайты для взрослых и другие не самые узкоспециализированные активности.
Сайт internetlivestats.com рассказывает о том, что происходит в интернете в режиме реального времени — за последнюю секунду, день или год.
Но вернемся к трафику. По данным Google, в 2008 году компания обрабатывала 20 петабайт данных в день. Сегодня аналогичный результат достигается меньше чем за 8 минут. За последний год эта цифра достигла 636 эксабайтов! На это было потрачено 554 524 478 мегаватт-часов.
Для сравнения все сезоны сериала «Игра престолов» весят около 70 Гб в разрешении видео 1024х576 — столько трафика обрабатывается Google за пару секунд.
Количество поисковых запросов, обрабатываемых Google:
- 1998 г. — 9800 в день, 3,2 млн в год;
- 2007 г. — 1,2 млрд в день, 438 млрд в год;
- 2016 г. — 3 млрд в день, 1,2 трлн в год.
Предполагается, что к 2020 году на планете будет 50 млрд подключенных устройств, из них 6,1 млрд — смартфоны. Население Земли достигнет 7,75 млрд (то есть в 6,5 раз меньше), и каждый житель будет генерировать 1,7 Мб информации в секунду. Примерно треть всех данных будет храниться в облаке. В 2013 общий объем данных в интернете составлял 4,3 зеттабайта, каждые два года он удваивается.
Предположительно, к 2020 году этот показатель возрастет до 44 зеттабайтов. Сложно сравнить это с чем-то осязаемым. Но попробуйте представить, что разместить их все можно будет, например, на 4,4 млрд 10-терабайтных накопителях.
Интернет-гиганты строят огромные дата-центры для хранения информации. Обычно данные об их расположении, оснащении и размерах хранятся в секрете. В лучшем случае, в интернете можно найти фотографии фасадов. Но Google три года назад приоткрыли завесу тайны над одним из своих дата-центров и объемами инвестиций в него.
Дата-центр Google, где находятся серверы с Youtube-роликами и где обрабатываются поисковые запросы, об объемах которых мы уже писали выше, занимает 10 000 квадратных метров. Но Google — огромная корпорация с миллиардными доходами, которая может себе позволить столько дата-центров и такого размера, как ей нужно.
На новый дата-центр в Орегоне площадью 15 240 кв. м компания потратила $600 млн в 2015 году. К 2020-му году, несмотря на удешевление технологий, скорее всего расходы будут еще выше. Apple строит дата-центр в Ирландии стоимостью $1 млрд и площадью 500 акров. От тепла, которое он будет вырабатывать, будут отапливаться близлежащие дома. В компании планируют покрыть этим дата-центром потребности по обеспечению своими сервисами европейских пользователей на ближайшие 10-15 лет.
Но для обычных пользователей, которые как раз и генерируют основной объем, эта информация едва ли важна. Кто задумывается о том, где конкретно YouTube хранит видео, а Instagram – фотографии, сколько это весит и во сколько обходится компаниям? Разработчики уже подумали об этом, чтобы пользователи комфортно занимались своими делами в их сервисах.
Другое дело бизнес – сами сервисы, торговые сети, интернет-магазины. Развитие технологий идет рука об руку с ростом объема данных, и чем дальше, тем больше их будет. И тут речь идет не только о картиночках, сообщениях и прочем UGC, но и о данных о поведении пользователей, Big Data.
Big Data — это нефть нашего времени, она позволяет делать многие вещи, среди которых — адаптация сервисов и даже городской инфраструктуры под потребности людей (об этом мы писали, например, тут), производить более точные измерения (например, фактического потока туристов в городе, о чем мы рассказывали тут), анализировать поведение пользователей и делать на основании этих данных более точные прогнозы. Во всех примерах выше речь идет не о заморских странах, а об украинских государственных проектах и стартапах, которые уже становятся более эффективными и в будущем оставят конкурентов далеко позади.
Несмотря на то, что Big Data — это уже реальность и в Украине, многие бизнесы до сих пор думают, что это дорого и для этого нужен некий суперкомпьютер. По факту есть две разные статьи расходов. Первая — это место под хранение данных. Оно нужно постоянно, но стоит сравнительно недорого. Вторая — анализ данных. Для этого нужны большие вычислительные мощности, которые как раз стоят дорого. Но при этом потребность в них нерегулярная — только на этапе анализа, а все остальное время ресурсы просто простаивают.
Современные технологии позволяют обрабатывать Big data в облаке, комбинируя публичные и частные облака — то есть используя гибридное облако. Частные облака подходят в том случае, когда доступ к ресурсу должен быть постоянным — например, когда речь идет о хранении данных. В таком случае есть смысл в том, чтобы строить свою инфраструктуру. Публичные — когда ресурсы требуются время от времени. В частности, их анализе и построении прогнозов. Их выгоднее «покупать» в публичном облаке, оплачивая только используемый ресурс.
Успех работы с облачными мощностями зависит не столь от производительности и мощности оборудования, на котором размещены данные, сколько в грамотно разработанной стратегии. Важно правильно поставить цель и определиться со стратегией работы в облаке — как на данном облаке будут работать аппликации, базы данных, какая сетевая и физическая инфраструктура сможет реализовать облачные нагрузки и работать без простоев, какими процессами будет управлять технический персонал провайдера, а какими-собственные сотрудники.
Гибридное облако является удобным решением для тех компаний, которые по какой-то причине не могут или не хотят отказаться от частного облака (например, по причинам безопасности), но в какой-то момент появляется необходимость выделить задачи с повышенной производительностью в публичное облако для быстрого наращивания мощностей. Такая модель облака помогает компаниям без предварительного опыта не только быстрее адаптироваться к облачной среде, но и подстраховаться на случай неожиданного роста больших данных. В среднем бизнес, максимально использующий возможности арендованного облака вне зависимости от его типа, может в течение 5 лет достичь снижение общих IT-расходов на 40%.
В материалах рубрики использованы сообщения следующих изданий: «New Scientist», «Economist» и «Fortean Times» (Англия), «Bild der Wissenschaft» и «Na-tur und Kosmos» (Германия), «Discover», «Psychology Today», «Skeptical Inquirer» и «Wired» (США), «Qa m’interesse», «Le Journal du CNRS», «La Recherche», «Science et Vie» и «Science et Vie Junior» (Франция), а также сообщения агентств печати и информация из Интернета.
Этим вопросом задались сотрудники американского научно-популярного журнала «Дискавер». Причём интересовал их не вес «железа» (серверов, компьютеров, подземных и подводных кабелей и прочего оборудования), а вес информации, ежедневно проходящей через Всемирную сеть, — потоков электронных писем, фотографий, видео-фрагментов, веб-страниц, музыкальных пьес, клипов и прочих документов, переведённых в цифровую форму, в поток единиц и нулей. Вот как они рассуждали.
Длиннейшая цепочка единиц и нулей, в которой зашифрован передаваемый документ, для путешествия по сети разбивается на пакеты размером от нескольких десятков до нескольких сотен байт. К каждому пакету цепляется ещё и адрес, куда его слать, и номер, позволяющий на месте получения правильно собрать пакеты в единое целое. По дороге эти пакеты проходят через множество компьютеров, и в каждом они ненадолго задерживаются в памяти и анализируются; затем определяется их дальнейший путь, и они пересылаются дальше.
За вес Интернета примем вес электронов, накапливающихся в памяти компьютеров. Микросхема оперативной памяти представляет собой комплекс из миллионов микроскопических конденсаторов. Когда такой конденсатор заряжен, в нём записана единица, не заряжен — ноль. Заряженный конденсатор содержит порядка 40 тысяч электронов (это очень мало: через нить стоваттной электролампы за секунду протекает около 5,7.10 18 электронов).
Если эту небольшую статью послать по электронной почте, она займёт около 25 килобайт (только текст, без картинки). В килобайте 1024 байт, в байте — 8 бит. Следовательно, объём статьи в битах — 205 000. Можно считать, что из них половина единицы, половина — нули. Значит, единиц 102 500, и каждая изображается 40 тысячами электронов. В целом на запись этой статьи пошло примерно 4 миллиарда электронов. Масса электрона 9,11.10 28 грамма, умножьте — и вы получите массу данного текста в памяти компьютера.
Но это только одно электронное письмо. Согласно статистике (разумеется, приблизительной), 75% всей пересылаемой информации по Интернету приходится на обмен файлами между пользователями сети, а из этих файлов, в свою очередь, 59% приходится на видеофайлы, 33% — на музыку и только 9% на электронные письма, включая спам — непрошеную рекламу. В сумме получается около 40 петабайт пересылаемой за сутки информации, или 40.10 15 байт: четвёрка и за ней 16 нулей. Если принять эту величину (которая, как и все упомянутые здесь числа, кроме массы электрона, весьма приблизительна), то вся пересылаемая информация весит 0,0057 миллиграмма. И ещё треть от этого веса надо добавить, если мы хотим учесть не только обмен файлами между пользователями, но и информацию, запрашиваемую у сайтов.
Насколько этот результат имеет отношение к реальности — неясно, но, по крайней мере, он достаточно любопытен.