В различных методах дешифрования применяются частотные характеристики открытых текстов, например они необходимы для методики раскрытия шифра простой замены[3]. Однако, для русского языка в литературе приводятся только частоты встречаемости букв, да и то для языка в общем. Частотные характеристики, как будет показано ниже, различаются в зависимости от тематики, автора, других характеристик источника. В рамках данной работы предлагается утилита, позволяющая делать оценки конкретных источников по частоте встречаемости букв.
Частотные характеристики текстов могут быть также использованы для подтверждения либо опровержения авторства.
Есть ещё одна интересная сторона применения частотных характеристик - автоматическач генерация паролей. Если пользователь придумывает пароль сам, то трудно заставить его придумать такой пароль, чтобы он был устойчив к подбору по словарю. Если пароль генерировать случайно и равновероятно, то он будет тяжело запоминаться и пользователь, вероятно, запишет его где-то. Это также недопустимо с точки зрения безопасности. Идея заключается в том, чтобы подсчитав частотные характеристики биграмм и триграмм, использовать их при генерации паролей. Хотя общее количество таких паролей и меньше всех возможных, но такой пароль нельзя будет подобрать по словарю и он будет легко запоминаться, несмотря на то, что он не является словом.
Другая часть работы повещена оценки энтропии источника сообщений на один знак. Данный параметр, также зависящий от конкретного источника, определяется как , где n - длина текста, c - открытый текст. Энтропия на 1 знак используется при оценки расстояния единственности, по Шеннону определяющейся как , L - мощность алфавита открытого текста. Данная оценка была уточнена в работе [2]:
; ,
Первый источник представлял собой файл, созданный путём слияния нескольких файлов, содержавших текст технического характера, а именно документацию фирмы Microsoft на её программный продукт - операционную систему MS Windows 95 OSR2 RUS. Размер файла 257539 байт, вероятно, позволил набрать необходимый статистический материал.
Второй источник представлял собой файл, также созданный путём слияния нескольких файлов, содержавших текст произведений А. С. Пушкина, полученных из сети Интернет из Публичной электронной библиотеки (библиотеки Евгения Пескина). Размер файла составил 258329 байт, однако данный источник имел существенный недостаток - все буквы Ъ были заменены на букву Ь, что не могло не сказаться на результате.
Третий источник был составлен из 15 рефератов студентов различных ВУЗов на нетехнические темы. Все рефераты были написаны в 1992-1995-х годах студентами 1-го - 4-го курсов. Длина файла составила 333177 байт, что дало самый богатый материал для статистики из всех рассмотренных.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|