[#] [Перевод] Тематическое моделирование репозиториев на GitHub
habrabot(difrex,1) — All
2016-10-19 21:30:05


![word cloud][1]
[Тематическое моделирование][2] — подраздел машинного обучения, посвященный извлечению абстрактных «тем» из набора «документов». Каждый «документ» представлен [мешком слов][3], т.е. множеством слов вместе с их частотами. Введение в тематическое моделирование прекрасно описано проф. [К. В. Воронцовым][4] в лекциях ШАД [[PDF][5]]. Самая известная модель ТМ — это, конечно, [Латентное размещение Дирихле][6] (LDA). Константину Вячеславовичу удалось обобщить все возможные тематические модели на основе мешка слов в виде [аддитивной регуляризации][7] (ARTM). В частности, LDA тоже входит в множество моделей ARTM. Идеи ARTM воплощены в проекте [BigARTM][8].

Обычно тематическое моделирование применяют к текстовым документам. Мы в [source\{d\}][9] (стартап в Испании) перевариваем биг дату, полученную из GitHub репозиториев (и скоро примемся за каждый публично доступный репозиторий в мире). Естественным образом возникла идея интерпретировать каждый репозиторий как мешок слов и натравить BigARTM. В этой статье пойдет речь о том как мы выполнили по сути первое в мире тематическое исследование крупнейшего хранилища open source проектов, что из этого получилось и как это повторить. **docker inside!**
[Читать дальше →][10]

[1]: https://habrastorage.org/getpro/habr/post_images/b7f/300/947/b7f300947c670121196b854ade922a20.png
[2]: https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5
[3]: https://en.wikipedia.org/wiki/Bag-of-words_model
[4]: http://www.machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Vokov
[5]: http://www.machinelearning.ru/wiki/images/e/e6/Voron-ML-TopicModeling-slides.pdf
[6]: https://ru.wikipedia.org/wiki/%D0%9B%D0%B0%D1%82%D0%B5%D0%BD%D1%82%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%89%D0%B5%D0%BD%D0%B8%D0%B5_%D0%94%D0%B8%D1%80%D0%B8%D1%85%D0%BB%D0%B5
[7]: http://link.springer.com/article/10.1007/s10994-014-5476-6
[8]: https://github.com/bigartm/bigartm
[9]: http://sourced.tech
[10]: https://habrahabr.ru/post/312596/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut