Данный проект представляет результаты анализа частотности букв и биграмм (двухбуквенных последовательностей) в русском языке. Анализ проведен на основе данных из Национального корпуса русского языка (ruscorpora.ru).
Частотность букв и биграмм была рассчитана с использованием Python-скрипта, который:
Алгоритм учитывает частоту слов в корпусе при подсчете частотности букв и биграмм, что дает более точное представление о реальном использовании букв и их сочетаний в русском языке.
На графике представлена относительная частотность каждой буквы русского алфавита. Можно увидеть, что наиболее частыми являются буквы "о", "е", "а", "и", "н", "т", "с". Наименее частотными - "ъ", "ф", "э", "щ", "ё".
На графике представлены 30 наиболее частотных биграмм (сочетаний двух букв) в русском языке. Наиболее частыми биграммами являются "ст", "то", "но", "на", "по".
Для сравнения частотности букв и биграмм, вы можете открыть комбинированный интерактивный график. Это позволяет лучше понять, как частотность отдельных букв соотносится с частотностью их сочетаний.