![][1]
В [предыдущей статье][2] я описал несколько алгоритмов эволюционных стратегий (evolution strategies, ES), помогающих оптимизировать параметры функции без необходимости явно вычислять градиенты. При решении задач обучения с подкреплением (reinforcement learning, RL) эти алгоритмы можно применять для поиска подходящих наборов параметров модели для агента нейросети (neural network agent). В этой статье я расскажу об использовании ES в некоторых RL-задачах, а также опишу методы поиска более стабильных и устойчивых политик.
[Читать дальше →][3]
[1]:
https://habrastorage.org/webt/mc/ia/4y/mcia4ymddcwm0g3-uad-uwik-ee.jpeg
[2]:
http://blog.otoro.net/2017/10/29/visual-evolution-strategies/
[3]:
https://habrahabr.ru/post/343008/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut