15 августа 2023

Утечка исходного кода «Яндекса» показала масштаб собираемых данных о пользователях

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ «РОСКОМСВОБОДА» ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА «РОСКОМСВОБОДА». 18+

Сервисами российского IT-гиганта собирается слишком много данных: точное местоположение человека, названия сетей Wi-Fi, информация о музыкальных и других предпочтениях, о вредных привычках и так далее. Всё это сегментируется для использования в рекламе и рекомендациях, но в условиях сближения «Яндекса» с государством есть опасения, что собранная информация будет использована с другой целью. Представляем перевод материалов издания Wired и компании по кибербезопасности Confiant.

Живя в России, почти невозможно обойтись без сервисов «Яндекса». Этот технологический гигант, часто называемый «российским Google», является частью повседневной жизни миллионов людей. Он занимает доминирующее положение в области онлайн-поиска, перевозок и стриминга музыки, а его карты, платежи, электронная почта и множество других сервисов пользуются огромной популярностью. Но, как и у всех технологических гигантов, у «Яндекса» есть и обратная сторона: он поглощает невероятный объём данных.

В январе с «Яндексом» случился весьма неприятный инцидент — он стал одной из тех крупных компаний, у которых произошла утечка исходного кода. Анонимный пользователь хакерского сайта BreachForums выложил в открытый доступ 45-гигабайтный кода «Яндекса». В файле, полученном, как утверждается, от недовольного сотрудника, нет данных о пользователях, однако он позволяет получить беспрецедентное представление о работе приложений и сервисов компании. Были раскрыты принципы работы поисковой системы, карты, голосового помощника, сервиса такси, почтового приложения и облачных сервисов «Яндекса».

Кроме того, в утечка коснулась двух ключевых систем «Яндекса»: сервиса веб-аналитики, позволяющего получать подробную информацию о том, как люди просматривают веб-страницы, и мощного инструмента поведенческой аналитики, с помощью которого работает рекламный сервис, приносящий миллионы долларов. Подобные рекламные системы лежат в основе большей части экономики современного интернета: Google, Facebook и тысячи рекламодателей полагаются на аналогичные технологии. Однако эти системы в значительной степени являются «черными дырами».

Глубокий анализ исходного кода этих двух сервисов, проведенный инженером по защите персональных данных из компании Confiant Кайли МакКри (Kaileigh McCrea), проливает свет на то, как работают эти системы.

Технологии «Яндекса» собирают огромные объёмы пользовательских данных, и они могут быть использованы для выявления их интересов методом «сопоставления и анализа» со всей имеющейся у компании информацией, говорится в выводах Confiant.

По словам МакКри, код «Яндекса» показывает, как компания создает профили домохозяйств для людей, которые живут вместе, и предсказывает конкретные интересы людей, а с точки зрения конфиденциальности найденное «вызывает глубокую тревогу».

«В этой луковице много жутких слоёв», – говорит она.

Результаты исследования также свидетельствуют о том, что в компании «Яндекс» существует технология обмена ограниченной информацией с «Ростелекомом», российской телекоммуникационной компанией, поддерживаемой Правительством.

Главный специалист «Яндекса» по защите персональных данных Иван Черевко в подробных письменных ответах на вопросы WIRED заявил, что «фрагменты кода» устарели, отличаются от используемых в настоящее время версий, и что часть исходного кода «никогда фактически не использовалась» в работе компании.

«Яндекс использует данные пользователей только для создания новых и улучшения существующих сервисов», и «никогда не продаёт данные пользователей и не раскрывает их третьим лицам без согласия пользователей», – заявил он.

Однако исследование было проведено в тот момент, когда российский технологический гигант переживал значительные перемены. После начала так называемой «специальной военной операции» России в Украине в феврале 2022 года «Яндекс» приступил к отделению своей материнской компании, базирующейся в Нидерландах, от российских подразделений. По мнению аналитиков, этот шаг может привести к тому, что «Яндекс» в России станет более тесно связан с Кремлем, а данные окажутся под угрозой.

«Они пытались поддерживать имидж более независимой и ориентированной на Запад компании, которая время от времени протестовала против некоторых репрессивных законов и постановлений, что способствовало привлечению иностранных инвестиций и деловых сделок», – говорит Наталья Крапива, юрисконсульт по техническим вопросам некоммерческой организации Access Now, занимающейся защитой цифровых прав.

«Но на практике «Яндекс» теряет свою независимость и уступает требованиям российских властей. Будущее компании неясно, но, скорее всего, российская часть компании потеряет оставшиеся „клочки независимости“», – добавляет она.

Сбор данных

Утечка данных из «Яндекса» огромна. 45 ГБ исходного кода охватывают почти все основные сервисы компании, позволяя взглянуть на работу тысяч инженеров-программистов. Код, судя по временным меткам, включенным в данные, датируется примерно июлем 2022 года и в основном использует популярные языки программирования. Он написан на английском и русском языках, но содержит и расистские высказывания (когда в январе произошла утечка, компания «Яндекс» заявила, что это «глубоко оскорбительно и совершенно неприемлемо», и подробно описала, как некоторые части кода нарушают политику компании).

МакКри вручную изучила две части кода: Yandex Metrica и Crypta.

Yandex Metrica — это аналог Google Analytics, программное обеспечение, которое размещает код на сайтах-участниках и в приложениях через AppMetrica, что позволяет отслеживать посетителей, вплоть до каждого движения мыши. В прошлом году программа AppMetrica, встроенная в более чем 40 тыс. приложений в 50 странах мира, вызвала опасения американских законодателей в отношении национальной безопасности после того, как газета Financial Times сообщила о масштабах данных, которые компания передает в Россию.

Эти данные, по словам МакКри, поступают в систему Crypta. Данный инструмент анализирует поведение людей в интернете, чтобы в конечном итоге показать им рекламу того, что их интересует. Как сообщается на сайте компании, анализируется более 300 «факторов», и алгоритмы машинного обучения группируют людей по их интересам.

«Каждое приложение или сервис, которые есть у «Яндекса», а их, как предполагается, более 90, в той или иной форме передаёт данные в Crypta для этих рекламных сегментов», – говорит МакКри.

Некоторые данные, собираемые «Яндексом», поступают от людей, пользующихся его услугами, — например, они сообщают свое местоположение, чтобы показать, где они находятся на карте. Другая информация собирается автоматически.

Компания может собирать информацию об устройстве пользователя, его местоположении, истории поиска, местонахождении дома, месте работы, истории прослушивания музыки и просмотра фильмов, данных электронной почты и т.д.

В исходном коде показано, что AppMetrica собирает данные о точном местоположении человека, включая высоту, направление и скорость его передвижения. МакКри задается вопросом, насколько это целесообразно для размещения рекламы. Кроме того, программа собирает имена сетей Wi-Fi, к которым подключаются люди. Эти данные поступают в систему Crypta, где название сети Wi-Fi связывается с общим идентификатором человека в системе «Яндекса», отмечает исследователь. Иногда система пытается связать несколько различных идентификаторов.

«Объём данных, которые «Яндекс» получает через «Метрику», настолько огромен, что его просто невозможно даже представить, – говорит Григорий Бакунов, бывший инженер и заместитель технического директора «Яндекса», покинувший компанию в 2019 году. – Этого достаточно, чтобы составить любую группу или сегмент аудитории».

Сегменты, созданные Crypta, выглядят очень узкоспециализированными и показывают, насколько мощными являются данные о нашей жизни в Интернете, когда они суммируются. Есть рекламные сегменты для людей, использующих умную колонку «Алиса» от «Яндекса», «любителей кино» можно сгруппировать по их любимому жанру, есть пользователи ноутбуков, люди, которые «искали Radisson на картах», и мобильные геймеры, проявляющие свой долгосрочный интерес.

МакКри отмечает, что некоторые категории выделяются больше других. По её словам, сегмент «курильщики», по-видимому, отслеживает людей, которые покупают товары, связанные с курением, например — электронные сигареты. В то время как «летние жители», возможно, указывают на людей, имеющих дома для отдыха, и для определения этого используются данные о местоположении. Есть также раздел «путешественники», который может использовать данные о местоположении для отслеживания того, совершили ли они поездку из своего обычного места в другое — он включает в себя международные и внутренние поля. Одна из частей кода, похоже, извлекала данные из приложения Mail и включала поля «посадочные талоны» и «гостиницы».

По словам МакКри, некоторые из этих данных «не звучат так уж необычно» для онлайн-рекламы. Но для неё большой вопрос — является ли создание персонализированной рекламы достаточно веской причиной для сбора «такого большого объема информации».

Поведенческая реклама уже давно следит за людьми в Интернете, а компании собирают данные о них самыми немыслимыми способами. Регулирующие органы не смогли разобраться в этом вопросе, а кто-то предлагает это запретить.

«Если подумать о том, что еще можно сделать, если можно произвести такой расчет, то это становится жутковато, особенно в России», – говорит МакКри.

Она считает, что не исключено создание сегментов для мужчин призывного и военнообязанного возраста, которые хотят уехать из России.

Представитель «Яндекса» Черевко утверждает, что группировка пользователей по интересам является «стандартной отраслевой практикой» и что рекламодатели не могут идентифицировать конкретных людей.

По словам Черевко, сбор информации позволяет показывать людям конкретную рекламу:

«...садово-огородные товары — сегменту пользователей, интересующихся дачами, автомобильное оборудование — тем, кто посещает автозаправочные станции».

По словам Черевко, Crypta анализирует поведение человека в Интернете и «вычисляет вероятность» его принадлежности к той или иной группе.

«Для Crypta каждый пользователь представляется в виде набора идентификаторов, и система не может связать их с реальным человеком, – утверждает Черевко. – Такой набор является только вероятностным». Он добавляет, что Crypta не имеет доступа к электронной почте людей, и говорит, что данные Mail в коде о посадочных талонах и гостиницах были «экспериментом». Crypta «получала от Mail только деидентифицированную информацию о категории», и этот метод не используется с 2019 года, говорит Черевко. Он добавляет, что «Яндекс» удаляет геолокацию пользователя, собранную AppMetrica, через 14 дней.

Хотя утечка исходного кода даёт подробное представление о том, как могут работать системы «Яндекса», это не полная картина происходящего.

Артур Хачуян, российский специалист по анализу данных и ИИ, открывший собственную компанию, занимающуюся аналитикой, аналогичной Crypta, утверждает, что при изучении кода он не обнаружил ни предварительно обученных моделей машинного обучения, ни ссылок на источники данных или внешние базы данных партнеров «Яндекса». Также неясно, например, какие части кода не использовались.

В коде ещё показано, как «Яндекс» может объединять данные из нескольких сервисов. По словам МакКри, в одном сложном процессе данные о поиске взрослого человека могут быть взяты из поискового инструмента «Яндекса», AppMetrica и приложения компании «Яндекс.Такси», чтобы предсказать, есть ли в его семье дети. Часть кода классифицирует детей по возрасту: старше или младше 13 лет (по словам Черевко, люди могут заказывать такси с детскими сиденьями, что является признаком того, что они «интересуются специфическим контентом, который может быть интересен человеку с ребенком»).

Один из элементов кода Crypta показывает, каким образом все эти данные могут быть собраны воедино. Существует пользовательский интерфейс, представляющий собой профиль человека: он показывает семейное положение, прогнозируемый доход, наличие детей и три интереса на такие широкие темы как бытовая техника, еда, одежда и отдых.

По словам Черевко, это «внутренний инструмент Яндекса», с помощью которого сотрудники могут видеть, как алгоритмы Crypta классифицируют их, и доступ к своей информации они могут получить только самостоятельно. «Мы не сталкивались с какими-либо инцидентами, связанными со злоупотреблением доступом», – говорит он.

Влияние государства

Яндекс переживает период реорганизации, больше похожей на распад, говорится в исследовании. В ноябре 2022 года нидерландская головная организация компании, Yandex NV, объявила о том, что отделится от российского бизнеса после событий в Украине. На международном уровне компания, которая сменит название, планирует развивать технологии самоуправляемого автомобиля и облачные вычисления, отказавшись при этом от поисковых, рекламных и других услуг в России. С возможной продажей связывают различных российских бизнесменов (в конце июля Yandex NV сообщила, что планирует предложить акционерам свою реструктуризацию в конце этого года).

Пока идёт работа над разделением, Россия пытается укрепить свой контроль над интернетом и усилить цензуру. Ряд новых законов обязывает все больше компаний и государственных служб страны использовать отечественные технологии. Например, недавно регуляторы данных Финляндии и Норвегии запретили международному приложению Yandex для такси отправлять данные в Россию в связи с вступлением в силу в сентябре новой нормы, которая позволит ФСБ получить доступ к данным о такси.

Эти меры по национализации в сочетании с планируемой сменой собственника в компании «Яндекс» вызывают опасения, что Кремль вскоре сможет использовать данные, собранные компанией. Станислав Шакиров, технический директор российской организации по защите цифровых прав «Роскомсвобода» и основатель организации по развитию технологий Privacy Accelerator, говорит, что исторически «Яндекс» пытался противостоять требованиям властей о предоставлении данных и оказался лучше, чем другие компании (в июне текущего года компания была оштрафована на 2 млн. рублей (24 тыс. долл. США) за то, что не передала данные российским спецслужбам). Однако эксперт считает, что ситуация меняется:

«Я склоняюсь к тому, что «Яндекс» попытаются национализировать, и, как следствие, сменится руководство и политика. И тогда данные пользователей окажутся под гораздо большей угрозой, чем сейчас».

Бакунов, который по просьбе WIRED ознакомился с некоторыми выводами МакКри, говорит, что его пугает возможность неправомерного использования данных в будущем. Он говорит, что Россия, похоже, представляет собой «новое поколение несостоявшегося государства», подчеркивая, как оно может использовать технологии:

«„Яндекс“ — это большая часть таких технологий. Когда мы создавали эту компанию, много лет назад, никто об этом не думал».

В свою очередь, Черевко говорит, что в процессе реструктуризации «контроль над компанией останется в руках руководства». И руководство компании принимает решения, основываясь на своих «основных принципах».

Однако утечка кода показывает, что в одном небольшом случае «Яндекс» уже может делиться ограниченной информацией с одной российской компанией, связанной с Правительством. В составе Crypta есть пять «матчеров», которые синхронизируют действия в отношении цифровых отпечатков с телекоммуникационными компаниями, в том числе с государственным «Ростелекомом». По словам МакКри, это указывает на то, что связанные с «отпечатками» события могут быть доступны для российского государства.

«Шокирует то, что это происходит», – говорит она. Но Черевко утверждает, что этот инструмент используется для повышения качества рекламы, помогая улучшить её точность, а также для выявления мошенников, пытающихся проводить махинации.

В целом, по словам МакКреа, что бы ни случилось с компанией, это урок, который можно извлечь из сбора слишком большого объема данных и того, что может произойти с ними со временем, когда обстоятельства изменятся.

«Ничто не может вечно оставаться безобидным», – говорит она.

Перевод сделан на основе статей:

The Yandex Leak: How a Russian Search Giant Uses Consumer Data
Leaked Yandex Code Breaks Open the Creepy Black Box of Online Advertising

IT-бизнес 152-ФЗ слежка за пользователями BigData метаданные персональные данные Яндекс перевод Wired

Аналитика

Переводы

15 августа 2023

Утечка исходного кода «Яндекса» показала масштаб собираемых данных о пользователях

Сбор данных

Влияние государства

Похожие статьи

Ограничительный сентябрь — какие законы вступают в силу

Петербургские видеокамеры научили распознавать этническую принадлежность

Операторов обяжут сообщать силовикам о «признаках киберпреступлений»

Маркетплейсы будут продавать по биометрии товары для взрослых

Госдума приняла закон о центрах обработки данных

Поддержать нас

Наша рассылка

Контакты

18+

Аналитика

Переводы

15 августа 2023

Утечка исходного кода «Яндекса» показала масштаб собираемых данных о пользователях

Сбор данных

Влияние государства

Поделитесь материалом

Похожие статьи

Ограничительный сентябрь — какие законы вступают в силу

Петербургские видеокамеры научили распознавать этническую принадлежность

Операторов обяжут сообщать силовикам о «признаках киберпреступлений»

Маркетплейсы будут продавать по биометрии товары для взрослых

Госдума приняла закон о центрах обработки данных

Поддержать нас

Наша рассылка

Контакты

18+