Проверка качества

Проверка качества очень интересная тема. К сожалению, ни в одном из опубликованных методов оценки силы я не нашёл даже упоминания о проверке качества метода. Вообще говоря, во многих таких описаниях даже не приводятся какие-либо обоснования того что метод работает хорошо. Что уж там говорить о серьёзной проверке. Хочу обратить внимание читателя, что автор ни в коей мере не хочет принизить ценность существующих разработок. Наоборот, любые работы на эту тему достойны уважения. Однако, до сих пор наиболее мощным (а часто единственным) убеждающим фактором подобных моделей является практический опыт автора. Что для вдумчивых читателей с исследовательским складом ума мгновенно вызывает два вопроса. Во-первых, где гарантия что данный эксперт действительно находится на достаточно высоком уровне для прорыва в бриджевой теории? А если и так, то как определить кто из экспертов мощнее — чей метод в конце концов лучше? Автор просит прощения у доверчивых читателей которым показалось, что он серьёзно озабочен классификацией экспертов. Конечно же это была шутка. Трудно даже представить, что в современном мире кто-то ещё действительно верит мнению экспертов. Потому что: Во-вторых, зачем выращивать эксперта и в течении многих лет заставлять его играть сотни тысяч сдач в надежде что у него проклюнется картовое чутьё? Когда можно проанализировать миллионы партий на компьютере за месяц, а потом проанализировать ещё один миллион под другим углом и так далее. В общем, если читатель так боиться и не доверяет компьютерам, сей опус ему читать не рекомендуется.

Во избежании нападок ещё и ещё раз подчеркну, что автор очень уважает всех предшественников — дизайнеров методов и всегда подчерпывает всё лучшее из других источников для улучшения своего исследования. Автор будет признателен за любую информацю относящуюся к делу.

Сравнение с существующими моделями

Итак. Переходим к описанию проверки настоящей модели. Она состоит из двух независимых частей. Первая проверка оценивает насколько хорошо метод предсказывает количество взяток. Чем меньше расхождение между предсказанным и реально полученным количеством взяток, тем лучше. Качество совпадения выражается значением среднеквадратичного отклонения теоретических и практических резульатов. Это очень простая и показательная проверка того, что метод делает то для чего он был создан: предсказывает количество взяток. Однако, данная оценка не говорит игрокам напрямую насколько хорош этот метод будет для них. Бриджисты предпочли бы выразить её в бриджевых терминах.

На помощь приходит второй способ проверки, который напрямую измеряет эффект от применения метода на результат игры в MP и IMP турнирах. Это непростая задача которая была решена довольно приблизительно. Тем не менее, даже приблизительная величина лучше чем вообще никакой. Она показывает качественный прирост эффективности метода. Рассмотрим как вычисляется эта величина. Каждая игра оценивается анализируемым методом. Если метод рекомендует другой тип контракта, чем тот что был заказан в настоящей игре, результат игры пересчитывается и вычисляется насколько больше или меньше импов или процентов получат игроки при использовании проверяемого метода. Полученная разница усредняется по всем играм и показывает среднее улучшение результата. Для того чтобы ещё более абстрагироваться от системных ошибок, результаты разных методов сравнивались между собой. Базовым методом для сравнения с другими был избран метод тотальных пунктов, который используется на BBO. В основном потому что он очень популярный и скорее всего явно или неявно используется в большинстве обработанных игр.

К сожалению даже для метода тотальных пунктов нет единого и ясного определения в интернете. Поэтому мы здесь определим его явно во избежание разночтений. В этой версии для БК контрактов считаются только фигурные очки, для мастевых контрактов считаются фигурные очки плюс очки за краткость: ренонс = 5, синглет = 3, дублет = 1.

Вторым базовым сравнительным методом выступает метод магического кристалла. В этом умозрительном методе игроки знают все результаты будущих игр и могут поставить контракт, который получит максимальный результат. Очевидно, данный метод невозможно не только превзойти, но даже и приблизиться к нему. Однако, он является хорошей точкой отсчёта для верхней границы и показывает насколько далеко искомый метод продвинулся от наиболее популярного до абсолютно недостижимого.

Точность предсказания взяток

Ниже представлены цифры показывающие насколько хорошо данный метод проходит проверку первого типа.

Среднеквадратичная ошибка

 

БК модель

Мастевая модель

Тотальные пункты

1.1914

1.1344

Evo пункты

0.8541

0.7603

Диаграммы точности предсказания взяток

Наглядно показать точность предсказания взяток также можно с помощью графиков зависимости теоретических и экспериментальных данных. Сами по себе эти графики не дают такого точного ответа как среднеквадратичная ошибка. Однако они дают дополнительное визуальное представление и позволяют проследить изменение зависимости при изменении уровня контракта.

 
 

На диаграммах отчётливо видно что графики для Evo пунктов прижимаются к ожидаемому значению гораздо плотнее, чем графики тотальных пунктов.

Улучшение результатов

Ниже представлены данные провери второго типа для Evo пунктов.

Улучшение результата, MP, %

 

БК модель

Мастевая модель

Магический кристалл (в сравнении с тотальными пунктами)

5.7

6.6

Evo пункты (в сравнении с тотальными пунктами)

1.6

1.9

Улучшение результата,  IMP

 

БК модель

Мастевая модель

Магический кристалл (в сравнении с тотальными пунктами)

1.4

1.3

Evo пункты (в сравнении с тотальными пунктами)

0.7

0.3

Интерпретация улучшения результатов

Имейте ввиду, что я не ставил задачу точно оценить улучшения результата в настоящих играх. Значения выше являются теоретическими и наилучшими достижимыми для данного метода в том случае когда вы знаете объединённую силу с точностью до пункта, а также всегда можете поставить оптимальный контракт. В игре за столом такие идеальные условия недостижимы. Поэтому вы скорее всего получите лишь какую-то часть рассчитанного улучшения. Хотя тоже самое можно сказать и о тотальных пунктах.

Даже с учётом вышесказанного приведённые цифры все равно достаточно хорошо показывают потенциальное улучшение релуьтатов при применении метода. В среднем Evo метод даёт приращение в ~1.5% MP или ~0.5 IMP по ставнению с тотальными пунктами. На теоретической шкале он продвигает вас примерно на 20-30% в направлении недостижимого максимума. С учётом того что этот максимум недостижим, это очень впечатляющий результат.