[#] Распарсить HTML в .NET и выжить: анализ и сравнение библиотек
habrabot(difrex,1) — All
2015-12-23 22:00:04


![][1] В ходе работы над одним домашним проектом, столкнулся с необходимостью парсинга HTML. Поиск по гуглу выдал [комменарий][2] [Athari][3] и его микро-обзор актуальных парсеров HTML в .NET за что ему огромное спасибо. К сожалению, никаких цифр и/или аргументов в пользу того или иного парсера найдено не было, что послужило поводом к написанию данной статьи. Сегодня я протестирую популярные, на данный момент, библиотеки для работы с HTML, а именно: [AngleSharp][4], [CsQuery][5], [Fizzler][6], [HtmlAgilityPack][7] и, конечно же, [Regex-way][8]. Сравню их по скорости работы и удобству использования. **TL;DR**: Код всех бенчмарков можно найти на [github][9]. Там же лежат результаты тестирования. Самым актуальным парсером на данный момент является [AngleSharp][10] — удобный, быстрый, парсер с удобным API. Тем, кому интересен подробный обзор — добро пожаловать под кат. [Читать дальше →][11]

[1]: https://habrastorage.org/files/e9e/461/875/e9e46187540d496fadb65a61d2af95f5.png
[2]: http://habrahabr.ru/post/112325/#comment_8578117
[3]: http://habrahabr.ru/users/athari/
[4]: https://github.com/AngleSharp/AngleSharp
[5]: https://github.com/jamietre/CsQuery
[6]: https://code.google.com/p/fizzler/
[7]: https://htmlagilitypack.codeplex.com/
[8]: http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454
[9]: https://github.com/forcewake/Benchmarks
[10]: https://github.com/AngleSharp/AngleSharp
[11]: http://habrahabr.ru/post/273807/#habracut