[#] [Из песочницы] Пробуем q-learning на вкус, повесть в трех частях
habrabot(difrex,1) — All
2017-12-27 11:30:07


Эта статья — небольшая заметка о реализации алгоритма q-learning для управления агентом в стохастическом окружении. Первая часть статьи будет посвящена созданию окружения для проведения симуляций — мини-игр на поле nxn, в которых агент должен как можно дольше продержаться на удалении от противников, движущихся случайным образом. Задача противников, соответственно, его настигнуть. Очки начисляются за каждый ход, проведенный агентом в симуляции. Вторая часть статьи затронет основы q-learning алгоритма и его имплементацию. В третьей части попробуем поменять параметры, которые определяют восприятие окружения агентом. Проанализируем влияние этих параметров на результативность его игры. Акцент я специально сместил в сторону использования минимального количества сторонних модулей. Цель — прикоснуться к самой сути алгоритма, так сказать потрогать руками. Для реализации будем использовать только «pure» python 3.

![][1]
[Читать дальше →][2]

[1]: https://habrastorage.org/webt/vq/3p/we/vq3pweivudxkrs174pjfyblkz1o.png
[2]: https://habrahabr.ru/post/345656/?utm_source=habrahabr&utm_medium=rss&utm_campaign=345656#habracut