20 December 2023

Исследование: ряд ИИ-систем обучаются на материалах с насилием над детьми

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ «РОСКОМСВОБОДА» ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА «РОСКОМСВОБОДА». 18+
Стэнфордская интернет-обсерватория проанализировала набор данных машинного обучения LAION, используемый Google, Stable Diffusion и другими крупными игроками на рынке искусственного интеллекта.
Фото: thestar.com.my

Согласно новому исследованию Стэнфордской интернет-обсерватории, Stable Diffusion, один из самых популярных инструментов искусственного интеллекта (ИИ) для преобразования текста в изображения был обучен на большом количестве незаконных материалов о сексуальном насилии над детьми. Набор данных под названием LAION-5B, который использует Stable Diffusion, содержал сотни известных изображений с сексуальным насилием над детьми (CSAM — child sexual abuse material).

Крупномасштабная открытая сеть искусственного интеллекта (Large-scale Artificial Intelligence Open Network, LAION) — это некоммерческая организация, которая создает инструменты с открытым исходным кодом для машинного обучения. LAION-5B — один из крупнейших и самых популярных продуктов компании. Он состоит из более чем пяти миллиардов ссылок на изображения, взятые из открытой сети, в том числе из социальных сетей, созданных пользователями, и используется для обучения наиболее популярных моделей генерации искусственного интеллекта, представленных в настоящее время на рынке. Например, в Stable Diffusion используется LAION-5B, а Stability AI финансировал его разработку.

Исследователи обнаружили более 3000 подозрительных частей CSAM в данных публичного обучения. Фактические объёмы данных, вероятнее всего, намного выше — учитывая, что исследование касается сентябрьского набора данных, и оно сосредоточено лишь на небольшой части набора миллиардов изображений.

Анализ баз проводился с помощью инструмента, который позволяет сопоставлять цифровые отпечатки рассматриваемых изображений с известными частями CSAM. Исследование Стэнфорда показало, что Stable Diffusion частично обучается на нелегальном детском контенте, включая CSAM, взятый с основных сайтов, таких как Reddit, Twitter (теперь X) и WordPress.

Не только Stable Diffusion использует LAION-5B, но также Midjourney. Google Imagen обучался на другом, но родственном наборе данных под названием LAION-400M, но после того, как разработчики обнаружили в данных проблемные изображения и стереотипы, они «сочли его непригодным для публичного использования», говорится в отчёте.

Это открытие, по мнению Стэнфордской интернет-обсерватории, подчеркивает опасность неизбирательного сбора данных из интернета в целях создания генеративного искусственного интеллекта.

Публичные чаты руководства LAION на официальном сервере Discord организации показывают, что они знали о возможности включения CSAM в их наборы данных еще в 2021 году.

«Думаю, распространение ссылки на такое изображение, как детское порно, можно считать незаконным, – написал ведущий инженер LAION Ричард Венку в ответ на вопрос исследователя, как LAION обрабатывает потенциально незаконные данные, которые могут быть включены в набор данных. – Мы пытались устранить такие вещи, но нет никакой гарантии, что все они исчезнут».

В начале текущего года Стэнфордская обсерватория также предупреждала, что генерирование контента с помощью ИИ несёт риски того, что правда и ложь станут неотличимыми как для отдельных людей, так и для общества любого масштаба.

Contacts

For general questions

[email protected]

For legal questions

[email protected]

Contacts for media:

Telegram: moi_fee
Signal: moi_fee.13

18+

On December 23, 2022, the Ministry of Justice included Roskomsvoboda in the register of unregistered public associations performing the functions of a foreign agent. We disagree with this decision and are appealing it in court.