ЖУРНАЛ Умозрительных Рассуждений и Научно-Аналитический Листок | Серия примо, том I, выпуск А, номер 1, тетрадка первая |
Статистическое исследование ввода и употребления рифм в Буриме не дает оснований утверждать, что качество рифм снижается со временем.
Введение. Всякий старожил буриме хорошо знает, что рифмы нынче не те [1-3]. Вот раньше были рифмы... В настоящей работе предпринята попытка либо подкрепить это убеждение фактами, либо же не подкрепить. Предварительные исследования подходов к проблеме показали, что простые статистические показатели не выявляют никаких тенденций. Фиг. 1 говорит сама за себя.
Однако доля забракованных рифм, вообще говоря, не служит надежным показателем качества рифм. Я вряд ли забракую рифму "колено/полено" [3], но и вряд ли порадуюсь возможности вставить ее в буриме. Единственный объективный показатель качества рифмы -- вероятность того, что при ее предъявлении буримисту будет написано буриме (или буриме, не попавшее в архив). Зная, сколько раз рифмы из данной тысячи (для усреднения случайностей) выпадали в заданиях и сколько раз они участвовали в буриме, мы легко вычислим средний показатель качества тысячи, как отношение второго к первому. Но если второе относительно легко узнать, то первое приходится оценивать по косвенным данным. Этой задаче посвящена основная часть настоящей работы.
Анализ. Обозначим вероятность рифмы номер k быть выданной, при условии, что в банке имеется n рифм, через p(k, n). Долгое время задание выдавалось только при добавлении новой рифмы в банк, причем задание состоит из двух рифм, поэтому было справедливо соотношение p(k, n) = 2/n. Начиная с некоторого (неизвестного, к сожалению) n = m, появилась возможность получать задание, не добавляя рифму в банк. Считая для простоты, что этой возможностью пользуются с некоторой фиксированной частотой, можно положить, что при n > m вероятность p(k, n) увеличилась до (2+a)/n. То есть,
2/n, n < m | ||
p(k, n) = | (1) | |
(2 + a)/n, n > m |
Просуммировав p(k, n) по n от k до текущего количества рифм N, мы получим оценку P(k) того, сколько раз k-я рифма выдавалась в заданиях. Приближая суммы интегралами и опуская подробности вывода за отсутствием в HTML адекватных средств отображения формул, получим:
2 ln N/k + a ln N/m, n < m | ||
P(k) = | (2) | |
(2 + a) ln N/k, n > m |
В уравнении (2) m и a -- неизвестные
константы. Вспомним, однако, зачем мы его выводили. Величина
P(k) есть оценка того, сколько раз рифма выдавалась в
заданиях. Если качество рифм не менялось со временем, то
P(k) пропорционально количеству буриме B(k), в которых данная
рифма встречается (а коэффициент пропорциональности -- показатель
качества). Но B(k) доступно измерению. Поэтому если
окажется, что оно описывается, с точностью до постоянного
множителя, формулой (2), то это будет
свидетельствовать о неизменности качества рифм. Для наглядности мы
изобразим зависимость B не от k, а от
Результаты. Экспериментальные данные изображены на Фиг. 2. По оси абсцисс
отложен
Данные хорошо ложатся на прямую, начиная примерно с 7-й тысячи (седьмая справа точка на графике), когда бесплатной выдачи рифм еще заведомо не было. Это значит, что бесплатным вводом пользуются мало. Некоторый провал для первых тысяч объясняется тем, что отождествлять рифмы в буриме до 2118-го, когда они не выделялись, удается только в немногим более половины случаев. А поскольку эти буриме написаны на рифмы из первых тысяч, результаты для них оказываются заниженными. Самое главное, однако: коэффициент качества рифм -- величина постоянная.
Дополнительный показатель -- соотношение архивных и неархивных буриме. Из Фиг. 3 видно, что никакой тенденции не обнаруживается и здесь.
Выводы каждый делает для себя сам.