[#] Парадокс Симпсона и немного Pandas
habrabot(difrex,1) — All
2016-03-20 02:30:02




# О чем статья?

В этой статье я хочу рассмотреть один из наиболее известных примеров парадокса Симпсона, попутно немного рассказав о MultiIndex в Pandas. Обо всем по порядку. **Парадокс Симпсона** — контринтуитивное явление в Статистике, когда мы видим в каждой из групп данных определенную зависимость, но при объеденении этих групп зависимость исчезает или становится противоположной. Например, если смотреть изменение среднего заработка женщин 25 лет и старше, работающих полный день, между 2000 и 2012 годами с различным уровнем образования, то мы получим следующие цифры (все расчеты проводились с поправкой на инфляцию):

* _Less than 9th grade_ -3.7%
* _9th-12th but didn’t finish_ -6.7%
* _High school graduate_ -3.3%
* _Some college but no degree_ -3.7%
* _Associate’s degree_ -10.0%
* _Bachelor’s degree or more_ -2.7%

По этим цифрам можно сделать вывод, что заработок женщин за 12 лет снизился. Однако, на самом деле, средний заработок женщин с полной занятостью вырос на 2.8% (подробнее про этот пример можно почитать [тут][1]). Одним из наиболее известных примеров парадокса Симпсона является случай половой дискриминации при поступлении в Калифорнийский унивеситет Berkeley. Его и будем рассматривать далее. [Читать дальше →][2]

[1]: http://cafehayek.com/2013/11/when-facts-arent-facts.html
[2]: https://habrahabr.ru/post/279665/#habracut