§ 4. Измерение информации
Основные темы параграфа:
• алфавитный подход к измерению информации; • алфавит, мощность алфавита; • информационный вес символа; • информационный объем текста и единицы информации.
А теперь обсудим вопрос о том, как можно измерять информацию.
Существует несколько подходов к измерению информации. Здесь мы
рассмотрим только один, который называется алфавитным подходом. Алфавитный подход к измерению информации
Вам хорошо известно, что для измерения таких величин, как,
например, расстояние, масса, время, существуют эталонные единицы. Для
расстояния — это метр, для массы — килограмм, для времени — секунда.
Измерение происходит путем сопоставления измеряемой величины с эталонной
единицей. Сколько раз эталонная единица укладывается в измеряемой
величине, таков и результат измерения. Следовательно, и для измерения информации должна быть введена своя эталонная единица.
Алфавитный подход позволяет измерять информационный объем текста
на некотором языке (естественном или формальном), не связанный с
содержанием этого текста.
Алфавит. Мощность алфавита
Под алфавитом
мы будем понимать набор букв, знаков препинания, цифр, скобок и др.
символов, используемых в тексте. В алфавит также следует включить и
пробел, т. е. пропуск между словами.
Полное число символов в алфавите принято называть мощностью
алфавита. Будем обозначать эту величину буквой N. Например, мощность
алфавита из русских букв и отмеченных дополнительных символов равна 54:
33 буквы + 10 цифр + 11 знаков препинания, скобки, пробел.
Информационный вес символа
При алфавитном подходе считается, что каждый символ текста имеет
определенный информационный вес. Информационный вес символа зависит от
мощности алфавита. А каким может быть наименьшее число символов в
алфавите? Оно равно двум! Скоро вы узнаете, что такой алфавит
используется в компьютере. Он содержит всего 2 символа, которые
обозначаются цифрами «0» и «1». Его называют двоичным алфавитом. Изучая
устройство и работу компьютера, вы узнаете, как с помощью всего двух символов можно представить любую информацию.
Информационный вес символа двоичного алфавита принят за единицу информации и называется 1 бит.
С увеличением мощности алфавита увеличивается информационный вес
символов этого алфавита. Так один символ из четырехсимволъного алфавита
(N = 4) «весит» 2 бита. Объяснение этому можно дать следующее: все
символы такого алфавита можно закодировать всеми возможными комбинациями
из двух цифр двоичного алфавита. Комбинацию из нескольких (двух, трех и
т. д.) знаков двоичного алфавита назовем двоичным кодом.
Используя три двоичные цифры, можно составить 8 различных комбинаций.
Следовательно, если мощность алфавита равна 8, то информационный вес одного символа равен 3 битам.
Четырехзначным двоичным кодом может быть закодирован каждый символ из 16-символьного алфавита. И так далее.
Найдем зависимость между мощностью алфавита (N) и количеством знаков в коде (b) — разрядностью двоичного кода.
Заметим, что 2 = 21, 4 = 22, 8 = 23, 16 = 24.
В общем виде это записывается следующим образом:
N= 2b.
Разрядность двоичного кода — это и есть информационный вес символа.
Информационный вес каждого символа, выраженный в битах (b), и мощность алфавита (N) связаны между собой формулой: N= 2b.
Информационный объем текста и единицы информации
Информационный объем текста складывается из информационных весов
составляющих его символов, Например, следующий текст, записанный с
помощью двоичного алфавита:
1101001011000101110010101101000111010010
содержит 40 символов, следовательно, его информационный объем равен 40 битам.
Сегодня для подготовки текстовых документов чаще всего
применяются компьютеры. Алфавит, из которого составляется такой
«компьютерный текст», содержит 256 символов. В алфавит такого размера
можно поместить все практически необходимые символы: строчные и
прописные латинские и русские буквы, цифры, знаки арифметических
операций, всевозможные скобки, знаки препинания и пр.
Поскольку 256 = 28, то один символ компьютерного
алфавита «весит» 8 битов. Причем 8 битов информации — это настолько
характерная величина, что ей даже присвоили свое название — байт.
1 байт = 8 битов.
Легко подсчитать информационный объем текста, если известно, что
информационный вес одного символа равен 1 байту. Надо просто сосчитать
число символов в тексте. Полученное значение и будет информационным
объемом текста, выраженным в байтах.
Например, небольшая книжка, подготовленная с помощью компьютера,
содержит 150 страниц. На каждой странице — 40 строк, в каждой строке —
60 символов (включая пробелы между словами). Значит, страница содержит
40 х 60 = 2400 байтов информации. Для вычисления информационного объема
всей книги нужно полученную величину умножить на число страниц:
2400 байтов · 150 = 360 000 байтов.
Уже на таком примере видно, что байт — «мелкая» единица. А
представьте, если нужно, например, измерить информационный объем целой
библиотеки? В байтах это окажется громадным числом!
Для измерения больших информационных объемов используются более крупные единицы:
1 килобайт = 1 Кб = 210 байтов = 1024 байта 1 мегабайт = 1 Мб = 210 Кб = 1024 Кб 1 гигабайт = 1 Гб = 210 Мб = 1024 Мб
Следовательно, информационный объем вышеупомянутой книги равен
приблизительно 360 килобайтам. А если посчитать точнее, то получится:
360000/1024 = 351,5625 Кб. 351,5625/1024 - 0,34332275 Мб.
В заключение еще раз обратим внимание на важное свойство
рассмотренного здесь алфавитного подхода. При его использовании
содержательная сторона текста в учет не берется. Текст, состоящий из
бессмысленного сочетания символов, будет иметь ненулевой информационный
объем.
Коротко о главном
Алфавитный подход — это способ измерения информационного объема текста, не связанного с его содержанием.
Алфавит — это вся совокупность символов, используемых в некотором
языке для представления информации. Мощность алфавита — это число
символов в нем.
1 бит — информационный вес одного символа двухсимволъного алфавита (N= 2).
Информационный вес символа (разрядность двоичного кода) (b) и мощность алфавита (N) связаны формулой: N = 2b.
Информационный объем текста равен сумме информационных весов всех символов, составляющих текст.
1 байт — информационный вес символа из алфавита мощностью 28 = 256 символов. 1 байт — 8 битов.
Байт, килобайт, мегабайт, гигабайт — единицы измерения информации. Каждая следующая единица больше предыдущей в 1024 (210) раза.
Вопросы и задания
1. Что такое алфавит? 2. Что такое мощность алфавита? 3. Как определяется информационный объем текста при использовании алфавитного подхода? 4. Текст составлен с использованием алфавита мощностью 64 символа и содержит 100 символов. Каков информационный объем текста? 5. Что такое байт, килобайт, мегабайт. 6. Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст? 7.
Два текста содержат одинаковое количество символов. Первый текст
составлен в алфавите мощностью 32 символа, второй — мощностью 64
символа, Во сколько раз отличаются информационные объемы этих текстов?
|