В течение последних шести лет в Яндексе идет работа над системой под кодовым называнием YT (по-русски мы называем её «Ыть»). Это основная платформа для хранения и обработки больших объемов данных — мы [уже о ней рассказывали][1] на YaC 2013. С тех пор она продолжала развиваться. Сегодня я расскажу о том, с чего началась разработка YT, что нового в ней появилось и что ещё мы планируем сделать в ближайшее время.
[![][2]][3]
Кстати, 15 октября в офисе Яндекса мы расскажем не только о YT, но и о других наших инфраструктурных технологиях: Media Storage, Yandex Query Language и [ClickHouse][4]. На [встрече][5] мы раскроем тайну — расскажем, сколько же в Яндексе MapReduce-систем.
По роду своей деятельности Яндекс постоянно сталкивается с необходимостью хранить и обрабатывать данные таких объемов, с которыми обычному пользователю никогда не приходится иметь дело. Поисковые логи и индексы, пользовательские данные, картографическая информация, промежуточные данные и результаты алгоритмов машинного обучения — все это может занимать сотни петабайт дискового пространства. Для эффективной обработки подобных объемов традиционно используется парадигма MapReduce, позволяющая достичь хорошего баланса между эффективностью вычислений и простотой пользовательского кода.
[Читать дальше →][6]
[1]:
https://events.yandex.ru/lib/talks/1091/
[2]:
https://habrastorage.org/files/751/fb6/77c/751fb677ccd7464ea05f890825525ae7.png
[3]:
https://habrahabr.ru/company/yandex/blog/311104/
[4]:
https://habrahabr.ru/company/yandex/blog/303282/
[5]:
https://events.yandex.ru/events/meetings/15-oct-2016/?utm_source=habr&utm_medium=articles&utm_campaign=Infr
[6]:
https://habrahabr.ru/post/311104/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut