habra.16 / Web scraping обновляющихся данных при помощи Node.js и PaaS

[#] Web scraping обновляющихся данных при помощи Node.js и PaaS
habrabot(difrex,1) — All
2016-07-05 16:30:03

![][1]Это уже четвёртая статья в цикле про веб-скрейпинг при помощи Node.js:

1. [Web scraping при помощи Node.js][2]
2. [Web scraping на Node.js и проблемные сайты][3]
3. [Web scraping на Node.js и защита от ботов][4]
4. **Web scraping обновляющихся данных при помощи Node.js**

В прошлых статьях были рассмотрены получение и парсинг страниц, рекурсивный проход по ссылкам, организация и тонкая настройка очереди запросов, анализ Ajax-сайтов, обработка некоторых серверных ошибок, инициализация сессий и методы преодоления защиты от ботов.

В этой статье разбираются такие темы, как веб-скрейпинг регулярно обновляющихся данных, отслеживание изменений и использование облачных платформ для запуска скриптов и сохранения данных. Ещё внимание уделяется разделению задач веб-скрейпинга и обработки готовых данных, а также тому, чего стоит избегать при работе с обновляющимися сайтами.

Цель статьи – показать весь процесс создания, развёртывания и использования скрипта от постановки задачи и до получения конечного результата. Как обычно, для примера используется реальная задача, какие часто встречаются на биржах фриланса.

[Читать дальше →][5]

[1]: https://habrastorage.org/files/5ae/fa8/e37/5aefa8e375d44d9b8f07715d76a6327c.png
[2]: https://habrahabr.ru/post/301426/
[3]: https://habrahabr.ru/post/302766/
[4]: https://habrahabr.ru/post/303726/
[5]: https://habrahabr.ru/post/304708/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut