Согласно новому исследованию Стэнфордской интернет-обсерватории, Stable Diffusion, один из самых популярных инструментов искусственного интеллекта (ИИ) для преобразования текста в изображения был обучен на большом количестве незаконных материалов о сексуальном насилии над детьми. Набор данных под названием LAION-5B, который использует Stable Diffusion, содержал сотни известных изображений с сексуальным насилием над детьми (CSAM — child sexual abuse material).
Крупномасштабная открытая сеть искусственного интеллекта (Large-scale Artificial Intelligence Open Network, LAION) — это некоммерческая организация, которая создает инструменты с открытым исходным кодом для машинного обучения. LAION-5B — один из крупнейших и самых популярных продуктов компании. Он состоит из более чем пяти миллиардов ссылок на изображения, взятые из открытой сети, в том числе из социальных сетей, созданных пользователями, и используется для обучения наиболее популярных моделей генерации искусственного интеллекта, представленных в настоящее время на рынке. Например, в Stable Diffusion используется LAION-5B, а Stability AI финансировал его разработку.
Исследователи обнаружили более 3000 подозрительных частей CSAM в данных публичного обучения. Фактические объёмы данных, вероятнее всего, намного выше — учитывая, что исследование касается сентябрьского набора данных, и оно сосредоточено лишь на небольшой части набора миллиардов изображений.
Анализ баз проводился с помощью инструмента, который позволяет сопоставлять цифровые отпечатки рассматриваемых изображений с известными частями CSAM. Исследование Стэнфорда показало, что Stable Diffusion частично обучается на нелегальном детском контенте, включая CSAM, взятый с основных сайтов, таких как Reddit, Twitter (теперь X) и WordPress.
Не только Stable Diffusion использует LAION-5B, но также Midjourney. Google Imagen обучался на другом, но родственном наборе данных под названием LAION-400M, но после того, как разработчики обнаружили в данных проблемные изображения и стереотипы, они «сочли его непригодным для публичного использования», говорится в отчёте.
Это открытие, по мнению Стэнфордской интернет-обсерватории, подчеркивает опасность неизбирательного сбора данных из интернета в целях создания генеративного искусственного интеллекта.
Публичные чаты руководства LAION на официальном сервере Discord организации показывают, что они знали о возможности включения CSAM в их наборы данных еще в 2021 году.
«Думаю, распространение ссылки на такое изображение, как детское порно, можно считать незаконным, – написал ведущий инженер LAION Ричард Венку в ответ на вопрос исследователя, как LAION обрабатывает потенциально незаконные данные, которые могут быть включены в набор данных. – Мы пытались устранить такие вещи, но нет никакой гарантии, что все они исчезнут».
В начале текущего года Стэнфордская обсерватория также предупреждала, что генерирование контента с помощью ИИ несёт риски того, что правда и ложь станут неотличимыми как для отдельных людей, так и для общества любого масштаба.
The main news of the week in the field of law.
On December 23, 2022, the Ministry of Justice included Roskomsvoboda in the register of unregistered public associations performing the functions of a foreign agent. We disagree with this decision and are appealing it in court.