Меню

Частотность букв русского алфавита



Частота букв в русском языке

Написал забавный php-скрипт. Погонял через него все тексты на « Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов — определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом « Спектатора».

Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Тем, кто поедет на « Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая « привычная» буква « б» употребляется реже, чем « редкая» буква « ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните: « **а**и*е» и « ср*вн*т*». И в том и в другом случае — это слово « сравните».

И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу — о том и пою. А смысл. Как часто вы в нормальной жизни говорите слово « карандаш»? Если задача — научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке « случайных» четырехбуквенных слов выскочило « осел». В следующей полсотне — слова « мчим» и « нато». Но, увы, очень много неблагозвучных комбинаций, таких, как « блтт» или « нрро».

Поэтому — следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на « нормальные». Например: « коивдиот», « воабма», « апый», « депоид», « дебяко», « орфа», « поеснавы», « озза», « ченя», « риторя», « урдеед», « утоичи», « стых», « сапоть», « гравда», « абабап», « обарто», « еелует», « лярезы», « мыни», « бромомер» и даже « тодебыст».

Куда применить. есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа, « мемолисо» или « уторорерто». Или — генератор футуристических стихов « Бурлюк-php»: « опелдиий миатон, линоаз окмиая. деесопен одесон».

И есть еще один вариант. Надо попробовать.

Некоторые статистические данные об использовании русских слов:

Средняя длина слова 5.28 символа.

Средняя длина предложения 10.38 слов.

1000 наиболее частотных лемм покрывает 64.0708% текста.

2000 наиболее частотных лемм покрывают 71.9521% текста.

3000 наиболее частотных лемм покрывают 76.5104% текста.

  • 5000 наиболее частотных лемм покрывают 82.0604% текста.
  • После заметки мне пришло вот такое письмо:

    Здравствуйте, Дмитрий !

    Проанализировав статью « Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
    Вами написанный скрипт кажется мне предназначенным абсолютно не для « Поля чудес» в большей мере, а для другого.
    Первое самое разумное применение результатов работы Вашего скрипта — определение порядка букв при программировании кнопок для мобильных устройств. Да, да — именно в мобильниках и нужно все это.

    Я распределил это по волнам (см. рисунок)

    Далее распределение по кнопкам:
    1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
    2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
    3. Все буквы из третьей волны туда же на оставшиеся две кнопки
    4. 4,5 и 6 волны уходят во второй ряд
    5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

    Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

    1. Л. Н. Толстой. « Анна Каренина» (лучше конечно « Войну и мир», но я не нашел на www.lib.ru) -http://www.lib.ru/LITRA/TOLSTOJ/anna_kar.txt
    2. Ф. М. Достоевский. « Игрок» — www.lib.ru/LITRA/DOSTOEWSKIJ/igrok.txt
    3. Леонид Филатов. « Про Федота Стрельца» — www.lib.ru/ANEKDOTY/fedot.txt
    4. Вильям Шекспир. Сонеты (перевод С. Я. Маршака) www.lib.ru/SHAKESPEARE/sonets.txt
    5. Б. И А.Стругацкие. Пикник на обочине. www.lib.ru/STRUGACKIE/picnic.txt

    А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

    Заранее большое спасибо.

    Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

    Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая — служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые « популярные» слова: « и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

    Возвращаясь к клавиатурам — очевидно, что в клавиатуре буквосочетания « не», « что», « он», « на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые « удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

    Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

    Насчет же мобильных устройств. Наверное, it makes sense. По крайней мере, буквы « о», « а», « е» и « и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления : , . — ? ! » ; : ) (

    Запятая употребляется в 2 раза чаще, чем точка. А точка на стандартной русской клавиатуре расположена удобней.

    Статистика по приведенным выше текстам:

    По уникальным словам:

    о — 9.36%
    а — 8.40%
    е — 8.08%
    и — 6.91%
    н — 6.12%
    с — 5.67%
    т — 5.49%
    р — 5.30%
    л — 5.00%
    в — 4.67%
    п — 3.38%
    у — 3.17%
    к — 3.14%
    м — 2.97%
    д — 2.72%
    я — 2.50%
    ь — 2.08%
    ы — 2.06%
    з — 1.85%
    б — 1.61%
    г — 1.47%
    ш — 1.32%
    ч — 1.22%
    й — 1.21%
    ж — 1.01%
    ю — 0.99%
    х — 0.97%
    щ — 0.48%
    ц — 0.37%
    ф — 0.20%
    э — 0.06%
    ъ — 0.05%

    По текстам в целом:

    о — 11.35%
    е — 8.93%
    а — 8.23%
    н — 6.71%
    и — 6.48%
    т — 6.17%
    с — 5.22%
    л — 4.95%
    в — 4.47%
    р — 4.17%
    к — 3.35%
    д — 2.97%
    м — 2.93%
    у — 2.86%
    п — 2.39%
    я — 2.17%
    ь — 2.09%
    ы — 1.90%
    г — 1.811%
    б — 1.77%
    ч — 1.67%
    з — 1.65%
    ж — 1.14%
    й — 1.09%
    ш — 0.89%
    х — 0.79%
    ю — 0.66%
    э — 0.33%
    ц — 0.29%
    щ — 0.29%
    ф — 0.10%
    ъ — 0.02%

    Источник

    Частотные таблицы русского языка

    Частотный анализ – это один из методов криптоанализа, основывающийся на предположении о существовании нетривиального статистического распределения отдельных символов и их последовательностей как в открытом тексте, так и шифрованном тексте, которое с точностью до замены символов будет сохраняться в процессе шифрования и дешифрования.

    Кратко говоря, частотный анализ предполагает, что частота появления заданной буквы алфавита в достаточно длинных текстах одна и та же для разных текстов одного языка. При этом в случае моно алфавитного шифрования, если в шифрованном тексте будет символ с аналогичной вероятностью появления, то можно предположить, что он и является указанной зашифрованной буквой. Аналогичные рассуждения применяются к биграммам (двухбуквенным последовательностям), триграммам в случае поли алфавитных шифров.

    Метод частотного анализа известен с еще IX-го века и связан и именем Ал-Кинди. Но наиболее известным случаем применения такого анализа является дешифровка египетских иероглифов Ж.-Ф. Шампольоном в 1822 году.

    Данный вид анализа основывается на том, что текст состоит из слов, а слова из букв. Количество различных букв в каждом языке ограничено и буквы могут быть просто перечислены. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m-ок (m-грамм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие.

    Идея состоит в подсчете чисел вхождений каждой nm возможных m-грамм в достаточно длинных открытых текстах T=t1t2…tl, составленных из букв алфавита . При этом просматриваются подряд идущие m-граммы текста:

    t1t2. tm, t2t3. tm+1, . ti-m+1tl-m+2. tl.

    Если – число появлений m-граммы ai1ai2. aim в тексте T, а L – общее число подсчитанных m-грамм, то опыт показывает, что при достаточно больших L частоты

    для данной m-граммы мало отличаются друг от друга.

    В силу этого, относительную частоту считают приближением вероятности P (ai1ai2. aim) появления данной m-граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).

    В представленной ниже таблице приводятся частоты встречаемости букв в русском языке (в процентах):

    Буква алфавита Показатель частоты встречаемости Буква алфавита Показатель частоты встречаемости
    А 0,062 Р 0,04
    В 0,038 Т 0,053
    Д 0,025 Ф 0,002
    Ж 0,007 Ц 0,004
    И 0,062 Ш 0,006
    К 0,028 Ъ, Ь 0,014
    М 0,026 Э 0,003
    О 0,09 Я 0,018

    Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют слово СЕНОВАЛИТР.

    Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов. Существуют специальные таблицы с указанием частоты биграмм некоторых алфавитов. По результатам исследований с помощью таких таблиц ученые определили наиболее часто встречаемые биграммы и триграммы для русского алфавита:

    СТ, НО, ЕН, ТО, НА, ОВ, НИ, РА, ВО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА.

    Из таблиц биграмм можно также легко извлечь информацию о сочетаемости букв, т.е. о предпочтительных связях букв друг с другом.

    Результатом таких исследований является таблица, в которой слева и справа от каждой буквы расположены наиболее предпочтительные «соседи» (в порядке убывания частоты соответствующих биграмм). В таких таблицах обычно указывается также доля гласных и согласных букв (в процентах), предшествующих (или следующих за) данной букве.

    Г С Слева Справа Г С
    3 97 л, д, к, т, в, р, н А л, н, с, т, р, в, к, м 12 88
    80 20 я, е, у, и, а, о Б о, ы, е, а, р, у 81 19
    68 32 я, т, а, е, и, о В о, а, и, ы, с, н, л, р 60 40
    78 22 р, у, а, и, е, о Г о, а, р, л, и, в 69 31
    72 28 р, я, у, а, и, е, о Д е, а, и, о, н, у, р, в 68 32
    19 81 м, и, л, д, т, р, н Е н, т, р, с, л, в, м, и 12 88
    83 17 р, е, и, а, у, о Ж е, и, д, а, н 71 29
    89 11 о, е, а, и З а, н, в, о, м, д 51 49
    27 73 р, т, м, и, о, л, н И с, н, в, и, е, м, к, з 25 75
    55 45 ь, в, е, о, а, и, с К о, а, и, р, у, т, л, е 73 27
    77 23 г, в, ы, и, е, о, а Л и, е, о, а, ь, я, ю, у 75 25
    80 20 я, ы, а, и, е, о М и, е, о, у, а, н, п, ы 73 27
    55 45 д, ь, н, о Н о, а, и, е, ы, н, у 80 20
    11 89 р, п, к, в, т, н О в, с, т, р, и, д, н, м 15 85
    65 35 в, с, у, а, и, е, о П о, р, е, а, у, и, л 68 32
    55 45 и, к, т, а, п, о, е Р а, е, о, и, у, я, ы, н 80 20
    69 31 с, т, в, а, е, и, о С т, к, о, я, е, ь, с, н 32 68
    57 43 ч, у, и, а, е, о, с Т о, а, е, и, ь, в, р, с 63 37
    15 85 п, т, к, д, н, м, р У т, п, с, д, н, ю, ж 16 84
    70 30 н, а, е, о, и Ф и, е, о, а, е, о, а 81 19
    90 10 у, е, о, а, ы, и Х о, и, с, н, в, п, р 43 57
    69 31 е, ю, н, а, и Ц и, е, а, ы 93 7
    82 18 е, а, у, и, о Ч е, и, т, н 66 34
    67 33 ь, у, ы, е, о, а, и, в Ш е, и, н, а, о, л 68 32
    84 16 е, б, а, я, ю Щ е, и, а 97 3
    100 м, р, т, с, б, в, н Ы л, х, е, м, и, в, с, н 56 44
    100 н, с, т, л Ь н, к, в, п, с, е, о, и 24 76
    14 86 с, ы, м, л, д, т,, р, н Э н, т, р, с, к 100
    58 42 ь, о, а, и, л, у Ю д, т, щ, ц, н, п 11 89
    43 57 о, н, р, л, а, и, с Я в, с, т, п, д, к, м, л 16 84

    Пример: Проведем анализ текста следующего содержания

    «СОКРАТ из Афин (469–399 до н.э.) – знаменитый античный философ, учитель Платона, воплощенный идеал истинного мудреца в исторической памяти человечества. С именем Сократа связано первое фундаментальное деление истории античной философии на до- и после-Сократовскую («Досократики»), отражающее интерес ранних философов VI–V вв. к натурфилософии, а последующего поколения софистов V в. – к этико-политическим темам, главная из которых – воспитание добродетельного человека и гражданина. Сократу был близок софистическому движению. Учение Сократа было устным; все свободное время он проводил в беседах с приезжими софистами и местными гражданами, политиками и обывателями, друзьями и незнакомыми на темы, ставшими традиционными для софистической практики: что есть добро и что – зло, что прекрасно, а что безобразно, что добродетель и что порок, можно ли научиться быть хорошим и как приобретается знание. Об этих беседах мы знаем в основном благодаря ученикам Сократа – Ксенофонту и Платону. Кроме их сочинений, имеются также фрагменты и свидетельства о содержании «сократических диалогов» других сократиков, пародийное изображение Сократа в комедии Аристофана Облака и ряд замечаний о Сократе у Аристотеля. Проблема достоверности изображения личности Сократа в сохранившихся произведениях – ключевой вопрос всех исследований о нем.»

    Источник

    LiveInternetLiveInternet

    Рубрики

    • кулинария (28525)
    • рукоделие (8510)
    • здоровье (8423)
    • разное (3161)
    • магия (1892)
    • психология (1859)
    • сад,огород,цветы (1623)
    • фильмы (1335)
    • фитнес (1167)
    • компьютер (704)
    • дом, квартира (618)
    • юмор (602)
    • уход за собой,любимой (580)
    • стихи (570)
    • православие (424)
    • заготовки на зиму (344)
    • новый год (335)
    • путешествия (316)
    • фотошоп (298)
    • просто интересно (287)
    • музыка (235)
    • пасха (151)
    • дети (138)
    • погадаем? (116)
    • латино- соло (95)
    • лечение травами (68)
    • игры (54)
    • вост. танцы (51)
    • авто (42)
    • хиромантия (23)
    • баня, баня (16)
    • английский (14)
    • хлебопечка (12)
    • смайлики (3)

    Метки

    Музыка

    Поиск по дневнику

    Подписка по e-mail

    Статистика

    Частота применения букв в русском языке

    Частота применения букв в русском языке

    А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных. Причем частота употребляемости гласных букв в языке выше, чем согласных.

    2222299_zebri (637x19, 1Kb)

    Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

    Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования.

    2222299_alfavit (526x700, 209Kb)

    Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.

    2222299_bykvi (400x400, 3Kb)

    о — 9.28%
    а — 8.66%
    е — 8.10%
    и — 7.45%
    н — 6.35%
    т — 6.30%
    р — 5.53%
    с — 5.45%
    л — 4.32%
    в — 4.19%
    к — 3.47%
    п — 3.35%
    м — 3.29%
    у — 2.90%
    д — 2.56%
    я — 2.22%
    ы — 2.11%
    ь — 1.90%
    з — 1.81%
    б — 1.51%
    г — 1.41%
    й — 1.31%
    ч — 1.27%
    ю — 1.03%
    х — 0.92%
    ж — 0.78%
    ш — 0.77%
    ц — 0.52%
    щ — 0.49%
    ф — 0.40%
    э — 0.17%
    ъ — 0.04%

    Русская буква, имеющая наибольшую частотность в использовании – это гласная «О», как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти» (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

    А в самом начале слов чаще всего встречается согласная буква «П». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

    Частота использования букв основа криптоанализа.

    Источник

    Частотность

    Частотность — термин лексикостатистики, предназначенный для определения наиболее употребительных слов. Расчёт осуществляется по формуле: