Меню

Частотность букв русского алфавита



Частота букв в русском языке

Написал забавный php-скрипт. Погонял через него все тексты на « Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов — определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом « Спектатора».

Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Тем, кто поедет на « Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая « привычная» буква « б» употребляется реже, чем « редкая» буква « ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните: « **а**и*е» и « ср*вн*т*». И в том и в другом случае — это слово « сравните».

И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу — о том и пою. А смысл. Как часто вы в нормальной жизни говорите слово « карандаш»? Если задача — научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке « случайных» четырехбуквенных слов выскочило « осел». В следующей полсотне — слова « мчим» и « нато». Но, увы, очень много неблагозвучных комбинаций, таких, как « блтт» или « нрро».

Поэтому — следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на « нормальные». Например: « коивдиот», « воабма», « апый», « депоид», « дебяко», « орфа», « поеснавы», « озза», « ченя», « риторя», « урдеед», « утоичи», « стых», « сапоть», « гравда», « абабап», « обарто», « еелует», « лярезы», « мыни», « бромомер» и даже « тодебыст».

Куда применить. есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа, « мемолисо» или « уторорерто». Или — генератор футуристических стихов « Бурлюк-php»: « опелдиий миатон, линоаз окмиая. деесопен одесон».

И есть еще один вариант. Надо попробовать.

Некоторые статистические данные об использовании русских слов:

Средняя длина слова 5.28 символа.

Средняя длина предложения 10.38 слов.

1000 наиболее частотных лемм покрывает 64.0708% текста.

2000 наиболее частотных лемм покрывают 71.9521% текста.

3000 наиболее частотных лемм покрывают 76.5104% текста.

  • 5000 наиболее частотных лемм покрывают 82.0604% текста.
  • После заметки мне пришло вот такое письмо:

    Здравствуйте, Дмитрий !

    Проанализировав статью « Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
    Вами написанный скрипт кажется мне предназначенным абсолютно не для « Поля чудес» в большей мере, а для другого.
    Первое самое разумное применение результатов работы Вашего скрипта — определение порядка букв при программировании кнопок для мобильных устройств. Да, да — именно в мобильниках и нужно все это.

    Я распределил это по волнам (см. рисунок)

    Далее распределение по кнопкам:
    1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
    2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
    3. Все буквы из третьей волны туда же на оставшиеся две кнопки
    4. 4,5 и 6 волны уходят во второй ряд
    5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

    Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

    1. Л. Н. Толстой. « Анна Каренина» (лучше конечно « Войну и мир», но я не нашел на www.lib.ru) -http://www.lib.ru/LITRA/TOLSTOJ/anna_kar.txt
    2. Ф. М. Достоевский. « Игрок» — www.lib.ru/LITRA/DOSTOEWSKIJ/igrok.txt
    3. Леонид Филатов. « Про Федота Стрельца» — www.lib.ru/ANEKDOTY/fedot.txt
    4. Вильям Шекспир. Сонеты (перевод С. Я. Маршака) www.lib.ru/SHAKESPEARE/sonets.txt
    5. Б. И А.Стругацкие. Пикник на обочине. www.lib.ru/STRUGACKIE/picnic.txt

    А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

    Заранее большое спасибо.

    Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

    Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая — служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые « популярные» слова: « и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

    Возвращаясь к клавиатурам — очевидно, что в клавиатуре буквосочетания « не», « что», « он», « на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые « удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

    Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

    Насчет же мобильных устройств. Наверное, it makes sense. По крайней мере, буквы « о», « а», « е» и « и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления : , . — ? ! » ; : ) (

    Запятая употребляется в 2 раза чаще, чем точка. А точка на стандартной русской клавиатуре расположена удобней.

    Статистика по приведенным выше текстам:

    По уникальным словам:

    о — 9.36%
    а — 8.40%
    е — 8.08%
    и — 6.91%
    н — 6.12%
    с — 5.67%
    т — 5.49%
    р — 5.30%
    л — 5.00%
    в — 4.67%
    п — 3.38%
    у — 3.17%
    к — 3.14%
    м — 2.97%
    д — 2.72%
    я — 2.50%
    ь — 2.08%
    ы — 2.06%
    з — 1.85%
    б — 1.61%
    г — 1.47%
    ш — 1.32%
    ч — 1.22%
    й — 1.21%
    ж — 1.01%
    ю — 0.99%
    х — 0.97%
    щ — 0.48%
    ц — 0.37%
    ф — 0.20%
    э — 0.06%
    ъ — 0.05%

    По текстам в целом:

    о — 11.35%
    е — 8.93%
    а — 8.23%
    н — 6.71%
    и — 6.48%
    т — 6.17%
    с — 5.22%
    л — 4.95%
    в — 4.47%
    р — 4.17%
    к — 3.35%
    д — 2.97%
    м — 2.93%
    у — 2.86%
    п — 2.39%
    я — 2.17%
    ь — 2.09%
    ы — 1.90%
    г — 1.811%
    б — 1.77%
    ч — 1.67%
    з — 1.65%
    ж — 1.14%
    й — 1.09%
    ш — 0.89%
    х — 0.79%
    ю — 0.66%
    э — 0.33%
    ц — 0.29%
    щ — 0.29%
    ф — 0.10%
    ъ — 0.02%

    Источник

    Частотные таблицы русского языка

    Частотный анализ – это один из методов криптоанализа, основывающийся на предположении о существовании нетривиального статистического распределения отдельных символов и их последовательностей как в открытом тексте, так и шифрованном тексте, которое с точностью до замены символов будет сохраняться в процессе шифрования и дешифрования.

    Кратко говоря, частотный анализ предполагает, что частота появления заданной буквы алфавита в достаточно длинных текстах одна и та же для разных текстов одного языка. При этом в случае моно алфавитного шифрования, если в шифрованном тексте будет символ с аналогичной вероятностью появления, то можно предположить, что он и является указанной зашифрованной буквой. Аналогичные рассуждения применяются к биграммам (двухбуквенным последовательностям), триграммам в случае поли алфавитных шифров.

    Метод частотного анализа известен с еще IX-го века и связан и именем Ал-Кинди. Но наиболее известным случаем применения такого анализа является дешифровка египетских иероглифов Ж.-Ф. Шампольоном в 1822 году.

    Данный вид анализа основывается на том, что текст состоит из слов, а слова из букв. Количество различных букв в каждом языке ограничено и буквы могут быть просто перечислены. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m-ок (m-грамм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие.

    Идея состоит в подсчете чисел вхождений каждой nm возможных m-грамм в достаточно длинных открытых текстах T=t1t2…tl, составленных из букв алфавита . При этом просматриваются подряд идущие m-граммы текста:

    t1t2. tm, t2t3. tm+1, . ti-m+1tl-m+2. tl.

    Если – число появлений m-граммы ai1ai2. aim в тексте T, а L – общее число подсчитанных m-грамм, то опыт показывает, что при достаточно больших L частоты

    для данной m-граммы мало отличаются друг от друга.

    В силу этого, относительную частоту считают приближением вероятности P (ai1ai2. aim) появления данной m-граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).

    В представленной ниже таблице приводятся частоты встречаемости букв в русском языке (в процентах):

    Буква алфавита Показатель частоты встречаемости Буква алфавита Показатель частоты встречаемости
    А 0,062 Р 0,04
    В 0,038 Т 0,053
    Д 0,025 Ф 0,002
    Ж 0,007 Ц 0,004
    И 0,062 Ш 0,006
    К 0,028 Ъ, Ь 0,014
    М 0,026 Э 0,003
    О 0,09 Я 0,018

    Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют слово СЕНОВАЛИТР.

    Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов. Существуют специальные таблицы с указанием частоты биграмм некоторых алфавитов. По результатам исследований с помощью таких таблиц ученые определили наиболее часто встречаемые биграммы и триграммы для русского алфавита:

    СТ, НО, ЕН, ТО, НА, ОВ, НИ, РА, ВО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА.

    Из таблиц биграмм можно также легко извлечь информацию о сочетаемости букв, т.е. о предпочтительных связях букв друг с другом.

    Результатом таких исследований является таблица, в которой слева и справа от каждой буквы расположены наиболее предпочтительные «соседи» (в порядке убывания частоты соответствующих биграмм). В таких таблицах обычно указывается также доля гласных и согласных букв (в процентах), предшествующих (или следующих за) данной букве.

    Г С Слева Справа Г С
    3 97 л, д, к, т, в, р, н А л, н, с, т, р, в, к, м 12 88
    80 20 я, е, у, и, а, о Б о, ы, е, а, р, у 81 19
    68 32 я, т, а, е, и, о В о, а, и, ы, с, н, л, р 60 40
    78 22 р, у, а, и, е, о Г о, а, р, л, и, в 69 31
    72 28 р, я, у, а, и, е, о Д е, а, и, о, н, у, р, в 68 32
    19 81 м, и, л, д, т, р, н Е н, т, р, с, л, в, м, и 12 88
    83 17 р, е, и, а, у, о Ж е, и, д, а, н 71 29
    89 11 о, е, а, и З а, н, в, о, м, д 51 49
    27 73 р, т, м, и, о, л, н И с, н, в, и, е, м, к, з 25 75
    55 45 ь, в, е, о, а, и, с К о, а, и, р, у, т, л, е 73 27
    77 23 г, в, ы, и, е, о, а Л и, е, о, а, ь, я, ю, у 75 25
    80 20 я, ы, а, и, е, о М и, е, о, у, а, н, п, ы 73 27
    55 45 д, ь, н, о Н о, а, и, е, ы, н, у 80 20
    11 89 р, п, к, в, т, н О в, с, т, р, и, д, н, м 15 85
    65 35 в, с, у, а, и, е, о П о, р, е, а, у, и, л 68 32
    55 45 и, к, т, а, п, о, е Р а, е, о, и, у, я, ы, н 80 20
    69 31 с, т, в, а, е, и, о С т, к, о, я, е, ь, с, н 32 68
    57 43 ч, у, и, а, е, о, с Т о, а, е, и, ь, в, р, с 63 37
    15 85 п, т, к, д, н, м, р У т, п, с, д, н, ю, ж 16 84
    70 30 н, а, е, о, и Ф и, е, о, а, е, о, а 81 19
    90 10 у, е, о, а, ы, и Х о, и, с, н, в, п, р 43 57
    69 31 е, ю, н, а, и Ц и, е, а, ы 93 7
    82 18 е, а, у, и, о Ч е, и, т, н 66 34
    67 33 ь, у, ы, е, о, а, и, в Ш е, и, н, а, о, л 68 32
    84 16 е, б, а, я, ю Щ е, и, а 97 3
    100 м, р, т, с, б, в, н Ы л, х, е, м, и, в, с, н 56 44
    100 н, с, т, л Ь н, к, в, п, с, е, о, и 24 76
    14 86 с, ы, м, л, д, т,, р, н Э н, т, р, с, к 100
    58 42 ь, о, а, и, л, у Ю д, т, щ, ц, н, п 11 89
    43 57 о, н, р, л, а, и, с Я в, с, т, п, д, к, м, л 16 84

    Пример: Проведем анализ текста следующего содержания

    «СОКРАТ из Афин (469–399 до н.э.) – знаменитый античный философ, учитель Платона, воплощенный идеал истинного мудреца в исторической памяти человечества. С именем Сократа связано первое фундаментальное деление истории античной философии на до- и после-Сократовскую («Досократики»), отражающее интерес ранних философов VI–V вв. к натурфилософии, а последующего поколения софистов V в. – к этико-политическим темам, главная из которых – воспитание добродетельного человека и гражданина. Сократу был близок софистическому движению. Учение Сократа было устным; все свободное время он проводил в беседах с приезжими софистами и местными гражданами, политиками и обывателями, друзьями и незнакомыми на темы, ставшими традиционными для софистической практики: что есть добро и что – зло, что прекрасно, а что безобразно, что добродетель и что порок, можно ли научиться быть хорошим и как приобретается знание. Об этих беседах мы знаем в основном благодаря ученикам Сократа – Ксенофонту и Платону. Кроме их сочинений, имеются также фрагменты и свидетельства о содержании «сократических диалогов» других сократиков, пародийное изображение Сократа в комедии Аристофана Облака и ряд замечаний о Сократе у Аристотеля. Проблема достоверности изображения личности Сократа в сохранившихся произведениях – ключевой вопрос всех исследований о нем.»

    Источник

    LiveInternetLiveInternet

    Рубрики

    • кулинария (28525)
    • рукоделие (8510)
    • здоровье (8423)
    • разное (3161)
    • магия (1892)
    • психология (1859)
    • сад,огород,цветы (1623)
    • фильмы (1335)
    • фитнес (1167)
    • компьютер (704)
    • дом, квартира (618)
    • юмор (602)
    • уход за собой,любимой (580)
    • стихи (570)
    • православие (424)
    • заготовки на зиму (344)
    • новый год (335)
    • путешествия (316)
    • фотошоп (298)
    • просто интересно (287)
    • музыка (235)
    • пасха (151)
    • дети (138)
    • погадаем? (116)
    • латино- соло (95)
    • лечение травами (68)
    • игры (54)
    • вост. танцы (51)
    • авто (42)
    • хиромантия (23)
    • баня, баня (16)
    • английский (14)
    • хлебопечка (12)
    • смайлики (3)

    Метки

    Музыка

    Поиск по дневнику

    Подписка по e-mail

    Статистика

    Частота применения букв в русском языке

    Частота применения букв в русском языке

    А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных. Причем частота употребляемости гласных букв в языке выше, чем согласных.

    2222299_zebri (637x19, 1Kb)

    Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

    Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования.

    2222299_alfavit (526x700, 209Kb)

    Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.

    2222299_bykvi (400x400, 3Kb)

    о — 9.28%
    а — 8.66%
    е — 8.10%
    и — 7.45%
    н — 6.35%
    т — 6.30%
    р — 5.53%
    с — 5.45%
    л — 4.32%
    в — 4.19%
    к — 3.47%
    п — 3.35%
    м — 3.29%
    у — 2.90%
    д — 2.56%
    я — 2.22%
    ы — 2.11%
    ь — 1.90%
    з — 1.81%
    б — 1.51%
    г — 1.41%
    й — 1.31%
    ч — 1.27%
    ю — 1.03%
    х — 0.92%
    ж — 0.78%
    ш — 0.77%
    ц — 0.52%
    щ — 0.49%
    ф — 0.40%
    э — 0.17%
    ъ — 0.04%

    Русская буква, имеющая наибольшую частотность в использовании – это гласная «О», как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти» (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

    А в самом начале слов чаще всего встречается согласная буква «П». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

    Частота использования букв основа криптоанализа.

    Источник

    Частотность

    Частотность — термин лексикостатистики, предназначенный для определения наиболее употребительных слов. Расчёт осуществляется по формуле:

    Freq_x=\frac<Q_x data-lazy-src=

    ранг буква употреблений
    1 о 52295949
    2 е 40392978
    3 а 38081816
    4 и 35075552
    5 н 31900994
    6 т 30084462
    7 с 26058590
    8 р 22595850
    9 в 21582499
    10 л 20678280
    11 к 16599539
    12 м 15252377
    13 д 14173134
    14 п 13349597
    15 у 12452612
    16 я 9528713
    17 ы 9036813
    18 ь 8263123
    19 г 8031521
    20 з 7811723
    21 б 7579289
    22 ч 6904749
    23 й 5753983
    24 х 4597146
    25 ж 4476464
    26 ш 3420179
    27 ю 3044673
    28 ц 2314208
    29 щ 1719607
    30 э 1573696
    31 ф 1268926
    32 ъ 175908
    33 ё 63623

    Обратите внимание на то, что частоты букв «е» и «ё» являются недостоверными, из-за факультативного написания буквы «ё» в текстах.

    Источник

    Частотные таблицы русского языка

    На этом шаге мы рассмотрим информацию и алфавит .

    Рассматривая формы представления информации, мы отметили то обстоятельство, что, хотя естественной для органов чувств человека является аналоговая форма, универсальной все же следует считать дискретную форму представления информации с помощью некоторого набора знаков. В частности, именно таким образом представленная информация обрабатывается компьютером, передается по компьютерным и некоторым иным линиям связи. Сообщение есть последовательность знаков алфавита. При их передаче возникает проблема распознавания знака: каким образом прочитать сообщение, т.е. по полученным сигналам установить исходную последовательность знаков первичного алфавита. В устной речи это достигается использованием различных фонем (основных звуков разного звучания), по которым мы и отличает знаки речи. В письменности это достигается различным начертанием букв и дальнейшим нашим анализом написанного. Как данная задача может решаться техническим устройством, мы рассмотрим позднее. Сейчас для нас важно, что можно реализовать некоторую процедуру (механизм), посредством которой выделить из сообщения тот или иной знак. Но появление конкретного знака (буквы) в конкретном месте сообщения – событие случайное. Следовательно, узнавание (отождествление) знака требует получения некоторой порции информации. Можно связать эту информацию с самим знаком и считать, что знак несет в себе (содержит) некоторое количество информации. Попробуем оценить это количество.

    Начнем с самого грубого приближения (будем называть его нулевым, что отражается индексом у получаемых величин) – предположим, что появление всех знаков (букв) алфавита в сообщении равновероятно. Тогда для английского алфавита ne=27 (с учетом пробела как самостоятельного знака); для русского алфавита nr=34 . Из формулы Хартли находим:

    Получается, что в нулевом приближении со знаком русского алфавита в среднем связано больше информации, чем со знаком английского. Например, в русской букве «а» информации больше, чем в «a» английской! Это, безусловно, не означает, что английский язык – язык Шекспира и Диккенса – беднее, чем язык Пушкина и Достоевского. Лингвистическое богатство языка определяется количеством слов и их сочетаний, а это никак не связано с числом букв в алфавите. С точки зрения техники это означает, что сообщения из равного количества символов будет иметь разную длину (и соответственно, время передачи) и большими они окажутся у сообщений на русском языке.

    В качестве следующего (первого) приближения, уточняющего исходное, попробуем учесть то обстоятельство, что относительная частота, т.е. вероятность появления различных букв в тексте (или сообщении) различна. Рассмотрим таблицу средних частот букв для русского алфавита, в который включен также знак «пробел» для разделения слов (из книги А.М. и И.М.Ягломов [с.238]); с учетом неразличимости букв «е» и «ë», а также «ь» и «ъ» (так принято в телеграфном кодировании), получим алфавит из 32 знаков со следующими вероятностями их появления в русских текстах:

    Для оценки информации, связанной с выбором одного знака алфавита с учетом неравной вероятности их появления в сообщении (текстах) можно воспользоваться формулой (1.14). Из нее, в частности, следует, что если pi – вероятность (относительная частота) знака номер i данного алфавита из N знаков, то среднее количество информации, приходящейся на один знак, равно:

    Это и есть знаменитая формула К.Шеннона , с работы которого «Математическая теория связи» (1948) принято начинать отсчет возраста информатики, как самостоятельной науки. Объективности ради следует заметить, что и в нашей стране практически одновременно с Шенноном велись подобные исследования, например, в том же 1948 г. вышла работа А.Н.Колмогорова «Математическая теория передачи информации» .

    Применение формулы (1.17) к алфавиту русского языка дает значение средней информации на знак I1 (r) = 4,36 бит, а для английского языка I1 (e) = 4,04 бит, для французского I1 (l) = 3,96 бит, для немецкого I1 (d) = 4,10 бит, для испанского I1 (s) = 3,98 бит. Как мы видим, и для русского, и для английского языков учет вероятностей появления букв в сообщениях приводит к уменьшению среднего информационного содержания буквы, что, кстати, подтверждает справедливость формулы (1.7). Несовпадение значений средней информации для английского, французского и немецкого языков, основанных на одном алфавите, связано с тем, что частоты появления одинаковых букв в них различаются.

    В рассматриваемом приближении по умолчанию предполагается, что вероятность появления любого знака в любом месте сообщения остается одинаковой и не зависит от того, какие знаки или их сочетания предшествуют данному. Такие сообщения называются шенноновскими (или сообщениями без памяти).

    Сообщения, в которых вероятность появления каждого отдельного знака не меняется со временем, называются шенноновскими , а порождающий их отправитель – шенноновским источником .

    Если сообщение является шенноновским, то набор знаков (алфавит) и вероятности их появления в сообщении могут считаться известными заранее. В этом случае, с одной стороны, можно предложить оптимальные способы кодирования, уменьшающие суммарную длину сообщения при передаче по каналу связи. С другой стороны, интерпретация сообщения, представляющего собой последовательность сигналов, сводится к задаче распознавания знака, т.е. выявлению, какой именно знак находится в данном месте сообщения. А такая задача, как мы уже убедились в предыдущем шаге, может быть решена серией парных выборов. При этом количество информации, содержащееся в знаке, служит мерой затрат по его выявлению.

    Последующие (второе и далее) приближения при оценке значения информации, приходящейся на знак алфавита, строятся путем учета корреляций, т.е. связей между буквами в словах. Дело в том, что в словах буквы появляются не в любых сочетаниях; это понижает неопределенность угадывания следующей буквы после нескольких, например, в русском языке нет слов, в которых встречается сочетание щц или фъ. И напротив, после некоторых сочетаний можно с большей определенностью, чем чистый случай, судить о появлении следующей буквы, например, после распространенного сочетания пр- всегда следует гласная буква, а их в русском языке 10 и, следовательно, вероятность угадывания следующей буквы 1/10, а не 1/33. В связи с этим примем следующее определение:

    Сообщения (а также источники, их порождающие), в которых существуют статистические связи (корреляции) между знаками или их сочетаниями, называются сообщениями (источниками) с памятью или марковскими сообщениями (источниками).

    Как указывается в книге Л.Бриллюэна [с.46], учет в английских словах двухбуквенных сочетаний понижает среднюю информацию на знак до значения I2 (e) =3,32 бит, учет трехбуквенных – до I3 (e) =3,10 бит. Шеннон сумел приблизительно оценить I5 (e) 2,1 бит, I8 (e) 1,9 бит. Аналогичные исследования для русского языка дают: I2 (r) = 3,52 бит; I3 (r) = 3,01 бит.

    Последовательность I, I1, I2. является убывающей в любом языке. Экстраполируя ее на учет бесконечного числа корреляций, можно оценить предельную информацию на знак в данном языке , которая будет отражать минимальную неопределенность, связанную с выбором знака алфавита без учета семантических особенностей языка, в то время как I является другим предельным случаем, поскольку характеризует наибольшую информацию, которая может содержаться в знаке данного алфавита. Шеннон ввел величину, которую назвал относительной избыточностью языка :

    Избыточность является мерой бесполезно совершаемых альтернативных выборов при чтении текста. Эта величина показывает, какую долю лишней информации содержат тексты данного языка; лишней в том отношении, что она определяется структурой самого языка и, следовательно, может быть восстановлена без явного указания в буквенном виде.

    Исследования Шеннона для английского языка дали значение 1,4÷1,5 бит, что по отношению к I=4,755 бит создает избыточность около 0,68. Подобные оценки показывают, что и для других европейских языков, в том числе русского, избыточность составляет 60 – 70%. Это означает, что в принципе возможно почти трехкратное (!) сокращение текстов без ущерба для их содержательной стороны и выразительности. Например, телеграфные тексты делаются короче за счет отбрасывания союзов и предлогов без ущерба для смысла; в них же используются однозначно интерпретируемые сокращения «ЗПТ» и «ТЧК» вместо полных слов (эти сокращения приходится использовать, поскольку знаки «.» и «,» не входят в телеграфный алфавит). Однако такое «экономичное» представление слов снижает разборчивость языка, уменьшает возможность понимания речи при наличии шума (а это одна из проблем передачи информации по реальным линиям связи), а также исключает возможность локализации и исправления ошибки (написания или передачи) при ее возникновении. Именно избыточность языка позволяет легко восстановить текст, даже если он содержит большое число ошибок или неполон (например, при отгадывании кроссвордов или при игре в «Поле чудес»). В этом смысле избыточность есть определенная страховка и гарантия разборчивости.

    На практике учет корреляций в сочетаниях знаков сообщения весьма затруднителен, поскольку требует объемных статистических исследований текстов. Кроме того, корреляционные вероятности зависят от характера текстов и целого ряда иных их особенностей. По этим причинам в дальнейшем мы ограничим себя рассмотрением только шенноновских сообщений, т.е. будем учитывать различную (априорную) вероятность появления знаков в тексте, но не их корреляции.

    Со следующего шага мы начнем рассматривать теорию кодирования .

    Источник

    Читайте также:  Экспорт таблицы Excel на SharePoint
    Adblock
    detector