_Данная статья представляет собой перевод введения в машинное обучение, представленное на официальном сайте [scikit-learn][1]._ В этой части мы поговорим о терминах [машинного обучения][2], которые мы используем для работы с scikit-learn, и приведем простой пример обучения.
#### Машинное обучение: постановка вопроса
В общем, задача машинного обучения сводится к получению набора [выборок данных][3] и, в последствии, к попыткам предсказать свойства неизвестных данных. Если каждый набор данных — это не одиночное число, а например, многомерная сущность (multi-dimensional entry или [multivariate][4] data), то он должен иметь несколько признаков или фич. Машинное обчение можно разделить на несколько больших категорий:
* [обучение с учителем][5] (или управляемое обучение). Здесь данные представлены вместе с дополнительными признаками, которые мы хотим предсказать. ([Нажмите сюда][6], чтобы перейти к странице Scikit-Learn обучение с учителем). Это может быть любая из следующих задач:
1. [классификация][7]: выборки данных принадлежат к двум или более классам и мы хотим научиться на уже размеченных данных предсказывать класс неразмеченной выборки. Примером задачи классификации может стать распознавание рукописных чисел, цель которого — присвоить каждому входному набору данных одну из конечного числа дискретных категорий. Другой способ понимания классификации — это понимание ее в качестве дискретной (как противоположность непрерывной) формы управляемого обучения, где у нас есть ограниченное количество категорий, предоставленных для N выборок; и мы пытаемся их пометить правильной категорией или классом.
2. [регрессионный анализ][8]: если желаемый выходной результат состоит из одного или более непрерывных переменных, тогда мы сталкиваемся с регрессионным анализом. Примером решения такой задачи может служить предсказание длинны лосося как результата функции от его возраста и веса.
* [обучение без учителя ][9](или самообучение). В данном случае обучающая выборка состоит из набора входных данных Х без каких-либо соответствующих им значений. Целью подобных задач может быть определение групп схожих элементов внутри данных. Это называется [кластеризацией][10] или кластерным анализом. Также задачей может быть установление распределения данных внутри пространства входов, называемое густотой ожидания ([density estimation][11]). Или это может быть выделение данных из высоко размерного пространства в двумерное или трехмерное с целью визуализации данных. ([Нажмите сюда][12], чтобы перейти к странице Scikit-Learn обучение без учителя).
[Читать дальше →][13]
[1]:
http://scikit-learn.org/stable/tutorial/basic/tutorial.html
[2]:
https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5
[3]:
https://ru.wikipedia.org/wiki/Выборка
[4]:
http://en.wikipedia.org/wiki/Multivariate_random_variable
[5]:
https://ru.wikipedia.org/wiki/Обучение_с_учителем
[6]:
http://scikit-learn.org/stable/supervised_learning.html#supervised-learning
[7]:
https://ru.wikipedia.org/wiki/Задача_классификации
[8]:
https://ru.wikipedia.org/wiki/Регрессионный_анализ
[9]:
https://ru.wikipedia.org/wiki/Обучение_без_учителя
[10]:
https://ru.wikipedia.org/wiki/Кластерный_анализ
[11]:
http://en.wikipedia.org/wiki/Density_estimation
[12]:
http://scikit-learn.org/stable/unsupervised_learning.html#unsupervised-learning
[13]:
http://habrahabr.ru/post/264241/#habracut