11 декабря 2019

Анатомия трекеров. Часть II

Завершающая часть нашего перевода большой статьи Фонда электронных рубежей (Electronic Frontier Foundation, EFF) о том, как и крупные корпорации и более мелкие акторы зарабатывают на наших данных.  

С первой частью материала можно ознакомиться здесь.

КАК СОБИРАЮТСЯ ДАННЫЕ?
.
Чтобы отслеживать нас, компаниям, которые этим занимаются, нужно убедить разработчиков веб-сайтов и приложений включить определенный код отслеживания в свои продукты. А это не так просто, потому что включение такого кода в программу может нести для нее риски: это может замедлить работу ПО, бесить пользователей и подвергать сайт/приложение риску напороться на штраф, например, по GDPR. Тем не менее крупнейшие сети отслеживания охватывают огромную часть интернета и плейсторов, постоянно собирая данные из миллионов различных источников. В физическом мире трекеры можно найти на рекламных щитах, в розничных магазинах и на парковках торговых центров. Так как же выглядят эти сети отслеживания? Этот вопрос мы и обсудим в этой части.

Доминирующая рыночная сила в отслеживании — рекламная индустрия. Поэтому неудивительно, что онлайн-реклама является одним из основных инициаторов сбора данных. В простейшей модели одна рекламная сеть размещает рекламу на нескольких веб-сайтах. Владелец сайта, работающий с рекламной сетью, должен разместить на своем сайте небольшой фрагмент кода, который будет загружать рекламу с рекламного сервера. Так, каждый раз, когда пользователь посещает сайт, отправляется запрос этому рекламному серверу, а тот в ответ отправляет куки-файлы на компьютер пользователя, благодаря которыми рекламодатель теперь видит примерную статистику веб-сёрфинга пользователя, если тот посещает сайты той же рекламной сети. Так и начинается отслеживание. Аналогичным образом, рекламный сервер может предоставить разработчикам мобильных приложений комплект ПО для размещения рекламы. Всякий раз, когда пользователь открывает приложение, которое использует такое ПО, приложение отправляет запрос на рекламный сервер. Этот запрос содержит рекламный идентификатор пользователя, что позволяет рекламному серверу профилировать активность пользователя в разных приложениях.

На самом деле экосистема онлайн-рекламы еще сложнее. На рекламных биржах проводятся «аукционы в реальном времени» для отдельных показов объявлений на веб-страницах. При этом они могут загружать код от нескольких других сторонних поставщиков рекламы и могут делиться данными о каждом показе со многими потенциальными рекламодателями, участвующими в аукционе. Каждое объявление, которое вы видите, может быть использовано для обмена данными с десятками трекеров. Ниже — несколько инструментов, с помощью которых технологические компании наблюдают за пользователями.

Рекламная аналитика и пиксели конверсии

Код отслеживания не всегда встроен во что-либо видимое для пользователей, например в рекламный баннер. Значительная часть отслеживания происходит через невидимые «пиксели». Эти пиксели используются многими сборщиками данных в интернете — Google Аналитикой, Facebook, Amazon и т.д.

Когда владельцы веб-сайтов устанавливают сторонние пиксели отслеживания, они обычно делают это в обмен на доступ к некоторым данным, которые собирает тот, кто предоставляет пиксель. Например, Google Аналитика предлагает владельцам веб-сайтов информацию о том, какие люди посещают их сайты.

Встроенные медиаплееры

Наблюдение за пользователями часто реализуется с помощью встроенной рекламы в видео и в текстовых блогах на разных платформах, предоставляющих такую возможность — YouTube, Vimeo, Streamable и Twitter и т.д. Отслеживание может вестись и с помощью аудио-виджетов для сервисов Soundcloud, Spotify и потокового подкаста. Эти медиаплееры почти всегда работают в IFrame (встроенном коде) и поэтому имеют доступ к локальному хранилищу и могут произвольно запускать JavaScript.

Виджеты социальных сетей

Соцсети предоставляют веб-сайтам различные услуги, такие как кнопки «Нравится в Facebook» или «Поделиться в Twitter». Они часто представляются владельцам сайтов как легкий способ увеличить трафик и присутствие в социальных сетях. Кнопки «Нравится» и «Поделиться» могут использоваться для отслеживания точно так же, как пиксели: «кнопка» на самом деле является встроенным изображением, которое инициирует запрос к серверу соцсети.

Более сложные виджеты, например, разделы комментариев (когда на сайте можно комментировать новость из своего профиля Google/Facebook/Вконтакте) работают больше как встроенные медиаплееры. Они обычно входят в IFrame и имеют больший доступ к браузерам пользователей, чем простые пиксели или кнопки. Как и медиаплееры, эти виджеты могут получать доступ к локальному хранилищу и запускать JavaScript, чтобы вычислить идентификатор браузера.

Наконец, крупнейшие компании (в частности, Facebook и Google) предлагают услуги по управлению учетными записями для разных сайтов, например «Войти через Google», «Авторизоваться через Facebook». Эти службы «единого входа» привлекательны для владельцев сайтов по нескольким причинам: (1) веб-сайты и приложения могут переложить работу по управлению учетными записями на крупные компании, (2) пользователи могут запоминать меньше пар логин-пароль и реже проходить процедуру регистрации/входа. Но пользователи тут же платят свою цену: они позволяют Google, Facebook и др. выступать в роли третьей стороны и отслеживать свои действия на всех сайтах, где они залогинились. Сервисы входа в систему — это более надежные трекеры, чем пиксели или другие простые виджеты, поскольку они заставляют пользователей подтверждать свою личность

Капча

Капча — это технология, которая традиционно отделяет людей от роботов. Владельцы сайтов устанавливают капчу на страницах, где им особенно важно заблокировать автоматический трафик — на страницах регистрации и страницах с особенно большими файлами.

ReCAPTCHA от Google — самая популярная технология капчи в интернете в настоящий момент. Каждый раз, когда вы подключаетесь к сайту, который использует recaptcha, ваш браузер подключается к домену *.google.com, чтобы загрузить ресурсы капчи и делиться всеми связанными куки-файлами с Google. Это означает, что сеть капча — ещё один источник данных, которые Google может использовать для профилирования пользователей.

В то время как старая капча просила вас прочитать искаженный текст или щелкнуть на картинки со светофорами, новая ReCAPTCHA v3 записывает «взаимодействия с веб-сайтом» и бесшумно выявляет, является ли пользователь человеком. ReCaptcha генерирует что-то похожее на поведенческий идентификатор, в котором собрано то, как пользователь взаимодействует со страницей. Далее Google скармливает эти данные своему искусственному интеллекту для оценки вероятности того, что пользователь человек, а затем возвращает этот результат на первоначальный веб-сайт. Помимо удобства для пользователей, эта новая система выгодна Google двумя вещами. Во-первых, из-за невидимой рекапчи пользователи не задают вопросов по поводу того, куда Google отправляет их данные. Во-вторых, при анализе «робот или человек» Google использует свой огромный массив поведенческих данных, собранных из разных служб, и поэтому находится вне конкуренции на рынке капчи.
.
КТО СОБИРАЕТ ДАННЫЕ КРОМЕ ТЕХНОГИГАНТОВ?
.
Дата-брокеры

Это компании, которые собирают, агрегируют, обрабатывают и продают данные. Они работают вне поля зрения обычных пользователей, но в центре экономики обмена данными. Часто брокеры вообще не имеют прямых отношений с пользователями, и люди, о которых они продают данные, могут не знать, что они существуют. Дата-брокеры покупают информацию у небольших компаний, в том числе у розничных продавцов, финансово-технологических компаний, медицинских исследовательских компаний, интернет-рекламодателей, телекомов, производителей устройств Интернета вещей и у местных органов власти. Затем они продают данные (или услуги на основе данных) рекламодателям, агентам по недвижимости, исследовательским компаниям, университетам, правительствам или другим дата-брокерам.

Политические силы

Бизнес — не единственный, кто старается извлечь выгоду из сбора данных и целевой рекламы. Как показал прошлогодний случай с компанией Cambridge Analytica, сбором данных интересуются и политтехнологи. Cambrige Analytica исследовала незаконно полученные личные данные миллионов потенциальных избирателей для оценки их «психографии», а затем использовала эти данные для политических кампаний. В 2018 году группа американских консерваторов CatholicVote использовала данные о местоположении мобильного телефона, чтобы определить, кто находился внутри католической церкви, а затем отправляла им рекламу с просьбой проголосовать за Трампа.

Также данные закупают коллекторы, правоохранительные органы, администрации городов, правительства, разведки и частные лица, в том числе мошенники и криминал.
.
ЗАКЛЮЧЕНИЕ
.
Несмотря на то, что отслеживание трекерами — это неприятно и вряд ли кто-то захочет быть объектом наблюдения, зная, что его данными торгуют направо и налево, и также вряд ли кто-то захочет испытывать постоянное чувство тревоги из-за нарушения своей конфиденциальности, избежать наблюдения сейчас почти невозможно. Однако, каждый может решить, сколько усилий он готов приложить в этой борьбе за неприкосновенность своей частной жизни — и любые усилия здесь важны.

Контакты

По общим вопросам

[email protected]

По юридическим вопросам

[email protected]

Для СМИ

Телеграм: moi_fee
Signal: moi_fee.13

18+

23 декабря 2022 года Минюст включил Роскомсвободу в реестр незарегистрированных общественных объединений, выполняющих функции иностранного агента. Мы не согласны с этим решением и обжалуем его в суде.