[#] Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica)
habrabot(difrex,1) — All
2015-04-29 19:30:02






_Скачать пост в виде документа Mathematica, который содержит весь код использованный в статье, вместе с дополнительными файлами, можно [здесь][1] (архив, ~147 МБ)._ Анализ социальных сетей и всевозможных медиа-ресурсов является сейчас довольно популярным направлением и тем удивительнее для меня было обнаружить, что на Хабрахабре, по сути, нет статей, которые содержали бы анализ большого количества информации (постов, ключевых слов, комментариев и пр.), накопленного на нем за довольно большой период работы. Надеюсь, что этот пост сможет заинтересовать многих участников Хабрахабра. Я буду рад предложениям и идеям возможных дальнейших направлений развития этого поста, а также любым замечаниям и рекомендациям. В посте будут рассматриваться статьи, относящиеся к [хабам][2], всего в анализе участвовало **62000 статей** из **264 хабов**. Статьи, написанные только для корпоративных блогов компаний в посте не рассматривались. Ввиду того, что база данных, построенная в посте, формировалась за некоторое время до публикации, а именно 26 апреля 2015 г., посты, опубликованные на Хабрахабре после этой даты (а также, возможно, новые хабы) в данном посте не рассматривались.

# Оглавление

[Импорт списка хабов][3] [Импорт ссылок на все статьи Хабрахабра][4] [Импорт всех статей Хабрахабра][5] [Функции извлечения конкретнных данных из символьного XML представления поста][6] [Создание базы данных постов Хабрахабра с помощью Dataset][7] [Результаты обработки данных][8] — [Краткий анализ хабов][9] — [Граф связей хабов на Хабрахабре][10] — [Количество статей в зависимости от времени][11] — [Количество изображений (видео), используемых в постах в зависимости от времени][12] — [Облака ключевых слов Хабрахабра и отдельных хабов][13] — [Сайты, на которые ссылаются в статьях на Хабрахабре][14] — [Коды, которые приводят в статьях на Хабрахабре][15] — [Частота встречи слов][16] — [Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений][17] — [Зависимость рейтинга и числа просмотров поста от времени публикации][18] — [Зависимость рейтинга поста от его объема][19] [Заключение][20] [Читать дальше →][21]

[1]: http://data.wolframmathematica.ru/habrahabr/HabrAnalysisInWolframLanguage/HabrAnalysisInWolframLanguage.rar
[2]: http://habrahabr.ru/hubs/
[3]: http://habrahabr.ru/company/wolfram/blog/256999/#Part1
[4]: http://habrahabr.ru/company/wolfram/blog/256999/#Part2
[5]: http://habrahabr.ru/company/wolfram/blog/256999/#Part3
[6]: http://habrahabr.ru/company/wolfram/blog/256999/#Part4
[7]: http://habrahabr.ru/company/wolfram/blog/256999/#Part5
[8]: http://habrahabr.ru/company/wolfram/blog/256999/#Part6
[9]: http://habrahabr.ru/company/wolfram/blog/256999/#Part7
[10]: http://habrahabr.ru/company/wolfram/blog/256999/#Part8
[11]: http://habrahabr.ru/company/wolfram/blog/256999/#Part9
[12]: http://habrahabr.ru/company/wolfram/blog/256999/#Part10
[13]: http://habrahabr.ru/company/wolfram/blog/256999/#Part11
[14]: http://habrahabr.ru/company/wolfram/blog/256999/#Part12
[15]: http://habrahabr.ru/company/wolfram/blog/256999/#Part13
[16]: http://habrahabr.ru/company/wolfram/blog/256999/#Part14
[17]: http://habrahabr.ru/company/wolfram/blog/256999/#Part15
[18]: http://habrahabr.ru/company/wolfram/blog/256999/#Part16
[19]: http://habrahabr.ru/company/wolfram/blog/256999/#Part17
[20]: http://habrahabr.ru/company/wolfram/blog/256999/#Part18
[21]: http://habrahabr.ru/post/256999/#habracut