Подходы к определению количества информации. Формулы Хартли и Шеннона.

Американский инженер Р. Хартлив 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Формула Хартли: I = log₂N

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = Iog₂100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

при бросании монеты: "выпала решка", "выпал орел";

на странице книги: "количество букв чётное", "количество букв нечётное".

Определим теперь, являются ли равновероятными сообщения"первое выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина" Однозначно ответить на этот вопрос нельзя.Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннонпредложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — (р₁1оg₂ р₁ + р₂ log₂ р₂ + ... + p_N log₂ p_N),

где р_i — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности р₁..., p_Nравны, то каждая из них равна 1/N и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

Двоичные символы могут кодироваться любым способом: буквами А, Б; словами ДА, НЕТ, двумя устойчивыми состояниями системы и т.д. Однако ради простоты записи были взяты цифры 1 и 0. Обработка информации в ЭВМ основана на обмене электрическими сигналами между различными устройствами машины. В компьютере, хранящем, либо обрабатывающем информацию, рассматриваемые символы 0 и 1 могут также обозначаться по-разному: один из них - наличием в рассматриваемом элементе электрического тока, либо магнитного поля, второй - отсутствием электрического тока, либо магнитного поля.

Таким образом, в ЭВМ реализуются два устойчивых состояния. Эти два устойчивых состояния информационной системы определяют единицу измерения информации.

В качестве единицы информации Клод Шеннон предложил принять один бит(англ. bit — binary digit — двоичная цифра).

Таким образом, количество информации, кодируемое двоичной цифрой - 0 или 1, называется битом. Благодаря введению понятия единицы информации появилась возможность определения размера любой информации числом битов.

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений (типа "орел"—"решка", "чет"— "нечет" и т.п.).

В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "О" и "1", используемых для внутримашинного представления данных и команд.

Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт,равная восьми битам.Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2⁸).

Широко используются также ещё более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 2¹⁰ байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 2²⁰ байт,

1 Гигабайт (Гбайт) = 1024 Мбайт = 2³⁰ байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тбайт) = 1024 Гбайт = 2⁴⁰ байт,

1 Петабайт (Пбайт) = 1024 Тбайт = 2⁵⁰ байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти разно вероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

Процесс получения двоичной информации об объектах исследования называют кодированием информации. Кодирование информации перечислением всех возможных событий очень трудоемко. Поэтому на практике кодирование осуществляется более простым способом. Он основан на том, что один разряд последовательности двоичных цифр имеет уже вдвое больше различных значений - 00, 01, 10, 11, чем одноразрядные 0 и 1. Трехразрядная последовательность имеет также вдвое больше значений - 000, 001, 010, 011, 100, 101, 110, 111, чем двухразрядная и т.д. Добавление одного разряда увеличивает число значений вдвое, это позволяет составить следующую таблицу информационной емкости чисел:

Таблица 2.1. Информационная емкость чисел

Пользуясь вышеприведенной таблицей легко закодировать любое множество событий. Например, нам нужно закодировать 32 буквы русского алфавита, для этой цели достаточно взять пять разрядов, потому что пятиразрядная последовательность имеет 32 различных значения.

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒