habra.16 / [Перевод] Развитие стратегий устойчивости

[#] [Перевод] Развитие стратегий устойчивости
habrabot(difrex,1) — All
2017-11-24 14:30:10

![][1]

В [предыдущей статье][2] я описал несколько алгоритмов эволюционных стратегий (evolution strategies, ES), помогающих оптимизировать параметры функции без необходимости явно вычислять градиенты. При решении задач обучения с подкреплением (reinforcement learning, RL) эти алгоритмы можно применять для поиска подходящих наборов параметров модели для агента нейросети (neural network agent). В этой статье я расскажу об использовании ES в некоторых RL-задачах, а также опишу методы поиска более стабильных и устойчивых политик.

[Читать дальше →][3]

[1]: https://habrastorage.org/webt/mc/ia/4y/mcia4ymddcwm0g3-uad-uwik-ee.jpeg
[2]: http://blog.otoro.net/2017/10/29/visual-evolution-strategies/
[3]: https://habrahabr.ru/post/343008/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut