Привет всем, кто дожил до пятой темы нашего курса!
Курс собрал уже более 1000 участников, из них первые 3 домашних задания сделали 520, 450 и 360 человек соответственно. Около 200 участников пока идут с максимальным баллом. Отток намного ниже, чем в MOOC-ах, даже несмотря на большой объем наших статей.
Данное занятие мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию, и таким образом улучшим точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.
**Список статей серии**
1. [Первичный анализ данных с Pandas][1]
2. [Визуальный анализ данных c Python][2]
3. [Классификация, деревья решений и метод ближайших соседей][3]
4. [Линейные модели классификации и регрессии][4]
5. [Композиции: бэггинг, случайный лес][5]
6. Обучение без учителя: PCA, кластеризация, поиск аномалий
7. Искусство построения и отбора признаков. Приложения в задачах обработки текста, изображений и гео-данных
[Читать дальше →][6]
[1]:
https://habrahabr.ru/company/ods/blog/322626/
[2]:
https://habrahabr.ru/company/ods/blog/323210/
[3]:
https://habrahabr.ru/company/ods/blog/322534/
[4]:
https://habrahabr.ru/company/ods/blog/323890/
[5]:
https://habrahabr.ru/company/ods/blog/324402/
[6]:
https://habrahabr.ru/post/324402/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut