_Данная статья представляет перевод главы, обучающей работе с текстовыми данными, из официальной документации [scikit-learn][1]._ Цель этой главы — это исследование некоторых из самых важных инструментов в scikit-learn на одной частной задаче: анализ коллекции текстовых документов (новостные статьи) на 20 различных тематик. В этой главе мы рассмотрим как:
* загрузить содержимое файла и категории
* выделить вектора признаков, подходящих для машинного обучения
* обучить одномерную модель выполнять категоризацию
* использовать стратегию grid search, чтобы найти наилучшую конфигурацию для извлечения признаков и для классификатора
[Читать дальше][2]
[1]:
http://scikit-learn.org/0.15/tutorial/text_analytics/working_with_text_data.html
[2]:
http://habrahabr.ru/post/264339/#habracut