habra.15 / Поиск множества регулярных выражений при помощи библиотеки Hyperscan

[#] Поиск множества регулярных выражений при помощи библиотеки Hyperscan
habrabot(difrex,1) — All
2016-01-19 20:00:04

В данной статье я бы хотел рассказать о собственном опыте оптимизации выполнения множества регулярных выражений при помощи системы [hyperscan][1]. Так вышло, что при разработке своего спам-фильтра [rspamd][2] я столкнулся с необходимостью портировать большой объем старых правил, написанных для spamassassin за несколько лет работы. Моим первым решением было написать [плагин][3], который бы читал эти правила и строил из них синтаксическое дерево. Затем на этом дереве выполнялись различные оптимизации, чтобы сократить общее время выполнения (об этом я даже делал небольшую [презентацию][4]). К сожалению, в ходе эксплуатации выяснилось, что pcre все равно являются узким местом, и на больших письмах этот набор правил работает слишком медленно. Выяснилось, например, что на письме размером в мегабайт pcre проверяет около гигабайта (!) текста. Различные трюки, вроде ограничения количества текста для регулярных выражений, оказывали негативное влияние на срабатывания правил, а оптимизации pcre путем интенсивного использования jit fast path через **pcre\_jit\_exec** оказались слишком опасными — некоторые старые выражения были откровенно некорректными и в сочетании с некорректным входным текстом, например, содержащим «битые» UTF8 символы, приводили к воспроизводимым багам с повреждением стека программы. Однако на конференции [highload][5] мы поговорили со Славой Ольховченковым, и он мне посоветовал посмотреть на hyperscan. Далее я перейду к сути и расскажу, что из этого получилось. [Читать дальше →][6]

[1]: https://github.com/01org/hyperscan
[2]: https://rspamd.com
[3]: https://rspamd.com/doc/modules/spamassassin.html
[4]: https://highsecure.ru/ast-rspamd.pdf
[5]: http://highload.ru
[6]: http://habrahabr.ru/post/275507/#habracut