[#] # XRay помогает узнать, какие персональные данные используют компании
computerra.ru(wf,2) — All
2014-08-22 21:20:04


http://www.computerra.ru/105635/

[IT-рынок](http://www.computerra.ru/it-market/)

автор: [Андрей Васильков](/author/angstroem/) 22 августа 2014

В Колумбийском университете [разработано](mathias.lecuyer.me/xray/public/usenix14lecuyer.pdf) приложение XRay, которое определяет детали использования персональных данных популярными интернет-ресурсами. Эта программа способна выяснить, какая именно информация личного характера сохраняется при использовании онлайновых сервисов. Её отчёт помогает выявлять возможные злоупотребления со стороны рекламодателей и владельцев сайтов, а также вносит свой вклад в создание прозрачной схемы обработки приватной информации.

Ещё до шпионского скандала вокруг истории с Эдвардом Сноуденом было очевидно, что многие правительственные организации и частные компании собирают через интернет и хранят в своих базах информацию о всех людях, попадающихся им в поле зрения. Как правило, речь шла об анализе предпочтений на основе технической информации: версии браузера, списка наиболее посещаемых адресов, времени и места выхода в сеть…

![Схема работы программы XRay \(изображение: mathias.lecuyer.me\).](http://www.computerra.ru/wp-content/uploads/2014/08/XRay-scheme.jpg)

Схема работы программы XRay (изображение: mathias.lecuyer.me).

С недавних пор список существенно расширился. Популярные сайты и мобильные приложения через один запрашивают геоданные и языковые настройки, определяют наличие AdBlock и просят разрешить им доступ к аккаунтам в соцсетях. Некоторые даже пытаются получить доступ к истории поиска и адресной книге.

Все эти действия традиционно объясняются заботой о пользователе: попыткой создать более эффективные и персонализированные сервисы или автоматически подбирать личные рекомендации. Однако реальные причины обычно другие и касаются они схем монетизации дохода от предоставляемых бесплатно услуг. В самом безобидном случае сбор данных необходим для демонстрации целевой рекламы. Однако на основе поведенческого анализа и набора легко доступных сетевых идентификаторов [предпринимаются](http://www.computerra.ru/88932/xmas-bigdata/) даже попытки идентифицировать пользователя без явной авторизации и без его ведома.

![Вероятностный анализ использования персональных данных для показанной рекламы. Вероятность указана в долях единицы \(изображение: mathias.lecuyer.me\).](http://www.computerra.ru/wp-content/uploads/2014/08/XRay-tads.jpg)

Вероятностный анализ использования персональных данных для показанной рекламы. Вероятность указана в долях единицы (изображение: mathias.lecuyer.me).

К примеру, использование Google Now постепенно становится удобнее, но расплатой за это служит утрата пользователями последних остатков приватности. Зачастую такая жертва приносится даже не вполне осознанно, поскольку мало кто вчитывается в тексты лицензионных соглашений и задумывается о деталях реализации бесплатных сервисов.

В дата-центрах Google и Apple сохраняются все актуальные контакты пользователей и пароли от Wi-Fi сетей, а по данным GPS легко определить фактическое место проживания самого человека, узнать его ближайшее окружение и многое другое. Конечно, корпорации сотрудничают с правительством, но гораздо охотнее – друг с другом.

Вопреки распространённому мнению, правоохранительные органы мало интересует сетевая активность граждан (пока она не приводит к серьёзным последствиям в обычной жизни, приводящим к подаче исковых заявлений и постановлениям правительства). Основные охотники за личными данными – рекламодатели, маркетологи, кредитные организации и страховые компании. Все они платят не малые средства за детали о личной жизни своих клиентов – реальных и потенциальных.

Ограничение уровня вмешательства в личную жизнь и предотвращение злоупотреблений персональными данными стало юридической и технической проблемой. Чтобы решить её, исследователи из Колумбийского университета предложили универсальный статистический подход. Они создали наборы с ключевыми словами, некоторые из которых содержали конфиденциальную информацию, и внедрили их в тестовые аккаунты.

![Программа XRay - тест с ключевыми словами \(изображение: columbia.edu\).](http://www.computerra.ru/wp-content/uploads/2014/08/X-Ray_01.jpg)

Программа XRay -- тест с ключевыми словами (изображение: columbia.edu).

Затем с помощью вероятностной математической модели они проверили, как наличие определённых слов среди личных данных влияет на характер предлагаемой рекламы. Тексты с набором ключевых слов добавлялись в профили пользователя и отправлялись в его почтовые ящики, имитируя сетевую активность. Это позволило соотнести частоту встречаемости определённых терминов в созданной подборке и демонстрируемых предложениях персонального характера.

На основе этого алгоритма было создано приложение XRay, помогающее выяснить, какие именно данные и как используют компании. Программа отслеживает, как активность пользователя влияет на характер предлагаемой ему рекламы, персональные рекомендации и предложения посмотреть определённое видео на YouTube. По словам авторов исследования, их система была в состоянии предсказать таргетинг с точностью от восьмидесяти до девяноста процентов.

![Количество целевых рекламных объявлений после добавления разных ключевых слов \(изображение: columbia.edu\).](http://www.computerra.ru/wp-content/uploads/2014/08/XRay-Emails.jpg)

Количество целевых рекламных объявлений после добавления разных ключевых слов (изображение: columbia.edu).

Анализ результатов привёл к выводам, что рекламодатели часто злоупотребляют таргетированными сообщениями, используя в качестве источника темы писем в почтовых ящиках пользователей. Особенно это касается здравоохранения и финансовой сферы. Специфические средства для лечения различных заболеваний быстро добавлялись к потоку общей рекламы при попадании в почтовые ящики Gmail писем с соответствующими ключевыми словами. Аналогичным образом предлагались услуги кредитования, если в ящике было тестовое письмо о задолженности.

Программа XRay всё ещё находится на стадии ранней беты, но исследователи надеются, выпуск программного обеспечения по лицензии с открытым исходным кодом будет [способствовать](https://github.com/matlecu/xray/) развитию целого класса подобных приложений. Текущая версия может анализировать использование данных в Google Gmail, YouTube и Amazon, однако сам подход легко адаптировать и для других веб-сервисов.