Размер текста в байтах

Содержание

1 Достаточный алфавит
2 1 байт = 8 бит.
3 Единицы измерения количества информации:
4 Информационный объем текста
5 Ответ: Информационный объем текста 0,34 Мб.
6 Задача:

Информационный объем текста складывается из информационных весов составляющих его символов.

Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется всего два символа 0 и 1. Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц — машинным языком.

Какой длины должен быть двоичный код, чтобы с его помощью можно было закодировать васе символы клавиатуры компьютера?

Достаточный алфавит

В алфавит мощностью 256 символов можно поместить практически все символы, которые есть на клавиатуре. Такой алфавит называется достаточным.

Т.к. 256 = 2 8 , то вес 1 символа – 8 бит.

Единице в 8 бит присвоили свое название — байт.

1 байт = 8 бит.

Таким образом, информационный вес одного символа достаточного алфавита равен 1 байту.

Для измерения больших информационных объемов используются более крупные единицы измерения информации:

Единицы измерения количества информации:

1 килобайт = 1 Кб = 1024 байта

1 мегабайт = 1 Мб = 1024 Кб

1 гигабайт = 1 Гб = 1024 Гб

Информационный объем текста

Книга содержит 150 страниц.
На каждой странице — 40 строк.
В каждой строке 60 символов (включая пробелы).
Найти информационный объем текста.

1. Количество символов в книге:

60 * 40 * 150 = 360 000 символов.

2. Т.к. 1 символ весит 1 байт, информационный объем книги равен

3. Переведем байты в более крупные единицы:

360 000 / 1024 = 351,56 Кб

351,56 / 1024 = 0,34 Мб

Ответ: Информационный объем текста 0,34 Мб.

Задача:

Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

Информационный объем текста 3,5 Мб. Найти количество символов в тексте.

1. Переведем объем из Мб в байты:

3,5 Мб * 1024 = 3584 Кб

3584 Кб * 1024 = 3 670 016 байт

2. Т.к. 1 символ весит 1 байт, количество символов в тексте равно

Основные темы:

алфавитный подход к измерению информации;
алфавит, мощность алфавита;
информационный вес символа;
информационный объем текста и единицы информации.

А теперь обсудим вопрос о том, как можно измерять информацию. Существует несколько подходов к измерению информации. Здесь мы рассмотрим только один, который называется алфавитным подходом.

Алфавитный подход к измерению информации Вам хорошо известно, что для измерения таких величин, как, например, расстояние, масса, время, существуют эталонные единицы. Для расстояния — это метр, для массы — килограмм, для времени — секунда. Измерение происходит путем сопоставления измеряемой величины с эталонной единицей. Сколько раз эталонная единица укладывается в измеряемой величине, таков и результат измерения. Следовательно, и для измерения информации должна быть введена своя эталонная единица. Алфавитный подход позволяет измерять информационный объем текста на некотором языке (естественном или формальном), не связанный с содержанием этого текста.

Алфавит. Мощность алфавита
Под алфавитом мы будем понимать набор букв, знаков препинания, цифр, скобок и др. символов, используемых в тексте. В алфавит также следует включить и пробел, т. е. пропуск между словами.
Полное число символов в алфавите принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54:33 буквы + 10 цифр + 11 знаков препинания, скобки, пробел.

Информационный вес символа
При алфавитном подходе считается, что каждый символ текста имеет определенный информационный вес. Информационный вес символа зависит от мощности алфавита. А каким может быть наименьшее число символов в алфавите? Оно равно двум! Скоро вы узнаете, что такой алфавит используется в компьютере. Он содержит всего 2 символа, которые обозначаются цифрами «0» и «1». Его называют двоичным алфавитом. Изучая устройство и работу компьютера, вы узнаете, как с помощью всего двух символов можно представить любую информацию.

Читайте также Прошивка нокиа люмия 820

Информационный вес символа двоичного алфавита принят за единицу информации и называется 1 бит.

Serduko

garrick

Serduko

Думал об этом, интерактивность сложно реализуема.

garrick

Serduko

Serduko
Интерактивность? Какого рода?
Если просто загнать и максимальная функциональность: редактирование, копирование, вставка. RT вполне подойдет.
Отображать в виде, поиск по значению в базе: не подойдет.
Если загонять в многозначное текстовое, я бы предварительно весь этот текст обработал: убрал бы пустые сроки, запрещенные символы(неразрывные пробелы, лишние пробелы и т.д.) Это часто бывает при вставке из email.
Есть еще вариант. подсчитать, но совсем дикий) Записать в файл по байтам весь текст и взвесить.
Txt файл хранит только текст, размер пустого файла: 11 байт (если не путаю), а размер пустого word 11Кб

И так, инетерсно, если текст окажется больше, что делать будете?

garrick

Serduko

И так, инетерсно, если текст окажется больше, что делать будете?

Это некоторое подобие реляционных таблиц. Строка обработана, удалены лишние символы и пр., содержит данные с разделителем.
Соответственно, программа активно работает с этими данными.

Если текст будет больше 32, то программа автоматически переносит его на следующее поле (количество полей — любое, просто передаю их в массиве в функцию), ну а если все равно не влазит, тогда массив строк обрезается и выдается ошибка (не критичная). Сейчас массив строк обрезаю "на глаз", но хотелось бы большей эффективности.

Читайте также Прога для взлома контакта

PS благодаря ООП, если будет связь с SQL, с мин затратами переведу на него.