habra.16 / YT: зачем Яндексу своя MapReduce-система и как она устроена

[#] YT: зачем Яндексу своя MapReduce-система и как она устроена
habrabot(difrex,1) — All
2016-09-27 12:30:03

В течение последних шести лет в Яндексе идет работа над системой под кодовым называнием YT (по-русски мы называем её «Ыть»). Это основная платформа для хранения и обработки больших объемов данных — мы [уже о ней рассказывали][1] на YaC 2013. С тех пор она продолжала развиваться. Сегодня я расскажу о том, с чего началась разработка YT, что нового в ней появилось и что ещё мы планируем сделать в ближайшее время.

[![][2]][3]

Кстати, 15 октября в офисе Яндекса мы расскажем не только о YT, но и о других наших инфраструктурных технологиях: Media Storage, Yandex Query Language и [ClickHouse][4]. На [встрече][5] мы раскроем тайну — расскажем, сколько же в Яндексе MapReduce-систем.

По роду своей деятельности Яндекс постоянно сталкивается с необходимостью хранить и обрабатывать данные таких объемов, с которыми обычному пользователю никогда не приходится иметь дело. Поисковые логи и индексы, пользовательские данные, картографическая информация, промежуточные данные и результаты алгоритмов машинного обучения — все это может занимать сотни петабайт дискового пространства. Для эффективной обработки подобных объемов традиционно используется парадигма MapReduce, позволяющая достичь хорошего баланса между эффективностью вычислений и простотой пользовательского кода.

[Читать дальше →][6]

[1]: https://events.yandex.ru/lib/talks/1091/
[2]: https://habrastorage.org/files/751/fb6/77c/751fb677ccd7464ea05f890825525ae7.png
[3]: https://habrahabr.ru/company/yandex/blog/311104/
[4]: https://habrahabr.ru/company/yandex/blog/303282/
[5]: https://events.yandex.ru/events/meetings/15-oct-2016/?utm_source=habr&utm_medium=articles&utm_campaign=Infr
[6]: https://habrahabr.ru/post/311104/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut