[#] Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере
habrabot(difrex,1) — All
2017-02-15 14:00:04


![enter image description here][1]



Привет, Хабр!



Меня зовут Александр Крашенинников, я руковожу DataTeam в Badoo. Сегодня я поделюсь с вами простой и элегантной утилитой для распределённого выполнения команд в стиле xargs, а заодно расскажу историю её возникновения.



Наш отдел BI работает с объёмами данных, для обработки которых требуются ресурсы более чем одной машины. В наших процессах ETL в ход идут привычные миру Big Data распределённые системы Hadoop и Spark в связке с OLAP-базой [Exasol][2]. Использование этих инструментов позволяет нам горизонтально масштабироваться как по дисковому пространству, так и по CPU/ RAM.



Безусловно, в наших процессах ETL существуют не только тяжеловесные задачи на кластере, но и машинерия попроще. Широкий пласт задач решается одиночными PHP/ Python-скриптами без привлечения гигабайтов оперативной памяти и дюжины жёстких дисков. Но в один прекрасный день нам потребовалось адаптировать одну CPU-bound задачу для выполнения в 250 параллельных инстансов. Настала пора маленькому Python-скрипту покинуть пределы родного хоста и устремиться в большой кластер!

[Читать дальше →][3]

[1]: https://habrastorage.org/files/791/0ea/93c/7910ea93c4fb4d87a15b277b98ad0464.png
[2]: https://habrahabr.ru/company/badoo/blog/271753/
[3]: https://habrahabr.ru/post/321692/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut