habra.15 / Обзор примера применения обучения с подкреплением с использованием TensorFlow

![КПДВ. В Karpathy game играет нейронная сеть][1] Всем привет! Я думаю, что многие слышали о [Google DeepMind][2]. О том как они обучают программы играть в игры Atari лучше человека. Сегодня я хочу представить вам статью о том, как сделать нечто подобное. Данная статья — это обзор идеи и кода [примера][3] применения [Q-learning][4], являющегося частным случаем обучения с подкреплением. Пример основан на [статье сотрудников Google DeepMind][5]. [За подробностями добро пожаловать под кат][6]

[1]: https://habrastorage.org/files/70a/74e/0b1/70a74e0b15ad4a97944eb06d63dd2aff.png
[2]: http://deepmind.com/
[3]: https://github.com/nivwusquorum/tensorflow-deepq
[4]: https://ru.wikipedia.org/wiki/Q-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5
[5]: https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
[6]: http://habrahabr.ru/post/274597/#habracut