habra.15 / [Из песочницы] Введение в машинное обучение с помощью scikit-learn (перевод документации)

[#] [Из песочницы] Введение в машинное обучение с помощью scikit-learn (перевод документации)
habrabot(difrex,1) — All
2015-08-06 02:00:07

_Данная статья представляет собой перевод введения в машинное обучение, представленное на официальном сайте [scikit-learn][1]._ В этой части мы поговорим о терминах [машинного обучения][2], которые мы используем для работы с scikit-learn, и приведем простой пример обучения.

#### Машинное обучение: постановка вопроса

В общем, задача машинного обучения сводится к получению набора [выборок данных][3] и, в последствии, к попыткам предсказать свойства неизвестных данных. Если каждый набор данных — это не одиночное число, а например, многомерная сущность (multi-dimensional entry или [multivariate][4] data), то он должен иметь несколько признаков или фич. Машинное обчение можно разделить на несколько больших категорий:

* [обучение с учителем][5] (или управляемое обучение). Здесь данные представлены вместе с дополнительными признаками, которые мы хотим предсказать. ([Нажмите сюда][6], чтобы перейти к странице Scikit-Learn обучение с учителем). Это может быть любая из следующих задач:

1. [классификация][7]: выборки данных принадлежат к двум или более классам и мы хотим научиться на уже размеченных данных предсказывать класс неразмеченной выборки. Примером задачи классификации может стать распознавание рукописных чисел, цель которого — присвоить каждому входному набору данных одну из конечного числа дискретных категорий. Другой способ понимания классификации — это понимание ее в качестве дискретной (как противоположность непрерывной) формы управляемого обучения, где у нас есть ограниченное количество категорий, предоставленных для N выборок; и мы пытаемся их пометить правильной категорией или классом.
2. [регрессионный анализ][8]: если желаемый выходной результат состоит из одного или более непрерывных переменных, тогда мы сталкиваемся с регрессионным анализом. Примером решения такой задачи может служить предсказание длинны лосося как результата функции от его возраста и веса.

* [обучение без учителя ][9](или самообучение). В данном случае обучающая выборка состоит из набора входных данных Х без каких-либо соответствующих им значений. Целью подобных задач может быть определение групп схожих элементов внутри данных. Это называется [кластеризацией][10] или кластерным анализом. Также задачей может быть установление распределения данных внутри пространства входов, называемое густотой ожидания ([density estimation][11]). Или это может быть выделение данных из высоко размерного пространства в двумерное или трехмерное с целью визуализации данных. ([Нажмите сюда][12], чтобы перейти к странице Scikit-Learn обучение без учителя).

[Читать дальше →][13]

[1]: http://scikit-learn.org/stable/tutorial/basic/tutorial.html
[2]: https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5
[3]: https://ru.wikipedia.org/wiki/Выборка
[4]: http://en.wikipedia.org/wiki/Multivariate_random_variable
[5]: https://ru.wikipedia.org/wiki/Обучение_с_учителем
[6]: http://scikit-learn.org/stable/supervised_learning.html#supervised-learning
[7]: https://ru.wikipedia.org/wiki/Задача_классификации
[8]: https://ru.wikipedia.org/wiki/Регрессионный_анализ
[9]: https://ru.wikipedia.org/wiki/Обучение_без_учителя
[10]: https://ru.wikipedia.org/wiki/Кластерный_анализ
[11]: http://en.wikipedia.org/wiki/Density_estimation
[12]: http://scikit-learn.org/stable/unsupervised_learning.html#unsupervised-learning
[13]: http://habrahabr.ru/post/264241/#habracut