![][1]Здравствуй, Хабр! В этой статье речь пойдёт о небольшом программистском этюде на тему машинного обучения. Замысел его возник у меня при прохождении известного здесь многим курса[ «Machine Learning»][2], читаемого Andrew Ng на Курсере. После знакомства с методами, о которых рассказывалось на лекциях, захотелось применить их к какой-нибудь реальной задаче. Долго искать тему не пришлось — в качестве предметной области просто напрашивалась оптимизация собственного шахматного движка.
![][3] Не будем детально углубляться в архитектуру шахматных программ — это могло бы стать темой отдельной публикации или даже их серии. Рассмотрим только самые базовые принципы. Основными компонентами практически любого небелкового шахматиста являются _поиск_ и _оценка позиции_. Поиск представляет собой перебор вариантов, то есть итеративное углубление по дереву игры. Оценочная функция отображает набор позиционных признаков на числовую шкалу и служит целевой функцией для поиска наилучшего хода. Она применяется к листьям дерева, и постепенно «возвращается» к исходной позиции (корню) с помощью [альфа-бета процедуры][4] или её вариаций. Строго говоря, _настоящая_ оценка может принимать только три значения: выигрыш, проигрыш или ничья — 1, 0 или ½. По теореме Цермело для любой заданной позиции она определяется однозначно. На практике же из-за комбинаторного взрыва ни один компьютер не в состоянии просчитать варианты до листьев полного дерева игры (исчерпывающий анализ в эндшпильных базах данных — это отдельный случай; 32-фигурных таблиц в обозримом будущем не появится… и в необозримом, скорее всего, тоже). Поэтому программы работают в так называемой _модели Шеннона_ — пользуются усечённым деревом игры и приближённой оценкой, основанной на различных эвристиках. Поиск и оценка не существуют независимо друг от друга, они должны быть хорошо сбалансированы. Современные переборные алгоритмы давно уже не являются «тупым» перебором вариантов, они включают в себя многочисленные специальные правила, связанные в том числе и с оценкой позиции. Первые такие усовершенствования поиска появились ещё на заре шахматного программирования, в 60-х годах XX в. Можно упомянуть, например, технику _форсированного варианта (ФВ)_ — продление отдельных ветвей поиска до тех пор, пока позиция не «успокоится» (закончатся шахи и взаимные взятия фигур). Продления существенно увеличивают тактическую зоркость компьютера, а также приводят к тому, что дерево поиска становится очень неоднородным — длина отдельных ветвей может в несколько раз превышать длину соседних, менее перпективных. Другие улучшения поиска, наоборот, представляют собой _отсечения_ или _сокращения поиска_ — и здесь критерием отбрасывания плохих вариантов может, в числе прочего, служить всё та же статическая оценка. Параметризация и улучшение поиска методами машинного обучения — отдельная интересная тема, но сейчас мы оставим её в стороне. Займёмся пока только оценочной функцией. [Читать дальше →][5]
[1]:
http://habrastorage.org/getpro/habr/post_images/54a/41c/ddb/54a41cddb26a65d98a05c4fcde9bf9eb.jpg
[2]:
https://www.coursera.org/learn/machine-learning
[3]:
http://habrastorage.org/getpro/habr/post_images/fe2/f43/090/fe2f4309061f637bb0622e6e0781c982.jpg
[4]:
https://chessprogramming.wikispaces.com/Alpha-Beta
[5]:
http://habrahabr.ru/post/254753/#habracut