ЖУРНАЛ Умозрительных Рассуждений и Научно-Аналитический Листок Серия примо, том I, выпуск А, номер 1, тетрадка первая

Портятся ли рифмы?

Чальник Н.А., с.г. и е.н.с. ИЖВП, д.р.н., п.к.щ. и т.д.

Статистическое исследование ввода и употребления рифм в Буриме не дает оснований утверждать, что качество рифм снижается со временем.

Введение. Всякий старожил буриме хорошо знает, что рифмы нынче не те [1-3]. Вот раньше были рифмы... В настоящей работе предпринята попытка либо подкрепить это убеждение фактами, либо же не подкрепить. Предварительные исследования подходов к проблеме показали, что простые статистические показатели не выявляют никаких тенденций. Фиг. 1 говорит сама за себя.


Фиг. 1.

Однако доля забракованных рифм, вообще говоря, не служит надежным показателем качества рифм. Я вряд ли забракую рифму "колено/полено" [3], но и вряд ли порадуюсь возможности вставить ее в буриме. Единственный объективный показатель качества рифмы -- вероятность того, что при ее предъявлении буримисту будет написано буриме (или буриме, не попавшее в архив). Зная, сколько раз рифмы из данной тысячи (для усреднения случайностей) выпадали в заданиях и сколько раз они участвовали в буриме, мы легко вычислим средний показатель качества тысячи, как отношение второго к первому. Но если второе относительно легко узнать, то первое приходится оценивать по косвенным данным. Этой задаче посвящена основная часть настоящей работы.

Анализ. Обозначим вероятность рифмы номер k быть выданной, при условии, что в банке имеется n рифм, через p(k, n). Долгое время задание выдавалось только при добавлении новой рифмы в банк, причем задание состоит из двух рифм, поэтому было справедливо соотношение p(k, n) = 2/n. Начиная с некоторого (неизвестного, к сожалению) n = m, появилась возможность получать задание, не добавляя рифму в банк. Считая для простоты, что этой возможностью пользуются с некоторой фиксированной частотой, можно положить, что при n > m вероятность p(k, n) увеличилась до (2+a)/n. То есть,

2/n, n < m
p(k, n) = (1)
(2 + a)/n, n > m

Просуммировав p(k, n) по n от k до текущего количества рифм N, мы получим оценку P(k) того, сколько раз k-я рифма выдавалась в заданиях. Приближая суммы интегралами и опуская подробности вывода за отсутствием в HTML адекватных средств отображения формул, получим:

2 ln N/k + a ln N/m, n < m
P(k) = (2)
(2 + a) ln N/k, n > m

В уравнении (2) m и a -- неизвестные константы. Вспомним, однако, зачем мы его выводили. Величина P(k) есть оценка того, сколько раз рифма выдавалась в заданиях. Если качество рифм не менялось со временем, то P(k) пропорционально количеству буриме B(k), в которых данная рифма встречается (а коэффициент пропорциональности -- показатель качества). Но B(k) доступно измерению. Поэтому если окажется, что оно описывается, с точностью до постоянного множителя, формулой (2), то это будет свидетельствовать о неизменности качества рифм. Для наглядности мы изобразим зависимость B не от k, а от ln N/k, которая (зависимость) должна быть кусочно-линейной с изломом при k = m (заодно и определим m, если a заметно отлично от нуля).

Результаты. Экспериментальные данные изображены на Фиг. 2. По оси абсцисс отложен ln N/k, так что самая правая точка соответствует первой тысяче, и номер тысячи убывает справа налево. По оси ординат отложено количество буриме, в которых участвуют рифмы из данной тысячи. Это число надо поделить на 1000, чтобы сравнивать с P(k). Так, если взять 9-ю тысячу (абсцисса около 2), то в ней на каждую рифму приходится в среднем 1.3 буриме, в то время, как если бы каждое задание выполнялось, было бы в среднем 2 ln N/k = 4. Значит, коэффициент качества рифм этой тысячи составляет 37%.


Фиг. 2.

Данные хорошо ложатся на прямую, начиная примерно с 7-й тысячи (седьмая справа точка на графике), когда бесплатной выдачи рифм еще заведомо не было. Это значит, что бесплатным вводом пользуются мало. Некоторый провал для первых тысяч объясняется тем, что отождествлять рифмы в буриме до 2118-го, когда они не выделялись, удается только в немногим более половины случаев. А поскольку эти буриме написаны на рифмы из первых тысяч, результаты для них оказываются заниженными. Самое главное, однако: коэффициент качества рифм -- величина постоянная.

Дополнительный показатель -- соотношение архивных и неархивных буриме. Из Фиг. 3 видно, что никакой тенденции не обнаруживается и здесь.


Фиг. 3.

Выводы каждый делает для себя сам.

Литература.

  1. Justas - частное сообщение
  2. Опов - частное сообщение
  3. Янка - частное сообщение

Дополнение

Изложенные выше результаты оказались уязвимы для критики следующего рода: мы усредняем "качество рифмы" по всем буримистам, в то время, как эта величина чисто субъективна. Я готов согласиться, говорит критик, что новые люди так же охотно пишут на новые рифмы, как я в свое время на старые, но что мне до этого, если мне новые рифмы кажутся хуже старых?

Чтобы разрешить и этот вопрос, мы провели следующий эксперимент. Критику было выдано 100 случайно выбранных рифм. Он забраковал из них те, на которые не стал бы писать буриме (не зная номеров рифм в словаре). После этого рифмы были отсортированы по порядку номеров, и для каждой десятки последовательных рифм (с 1-й по 10-ю, со 2-й по 11-ю и т.д.) на графике Фиг. 4 было отложено число не забракованных критиком рифм в зависимости от центра тяжести десятки (т.е. среднего по десятке номера рифмы). Получившийся график показывает субъективное для данного критика качество рифм в зависимости от номера. Поскольку статистика невелика, разброс значительный, но в пределах вероятного отклонения (ок. 3 ед для ансамбля в 10 точек). Как и следовало ожидать, никакой тенденции снова не обнаруживается. Иначе говоря, и субъективное для критика качество рифм не ухудшается.


Фиг. 4.