Согласно новому исследованию Стэнфордской интернет-обсерватории, Stable Diffusion, один из самых популярных инструментов искусственного интеллекта (ИИ) для преобразования текста в изображения был обучен на большом количестве незаконных материалов о сексуальном насилии над детьми. Набор данных под названием LAION-5B, который использует Stable Diffusion, содержал сотни известных изображений с сексуальным насилием над детьми (CSAM — child sexual abuse material).
Крупномасштабная открытая сеть искусственного интеллекта (Large-scale Artificial Intelligence Open Network, LAION) — это некоммерческая организация, которая создает инструменты с открытым исходным кодом для машинного обучения. LAION-5B — один из крупнейших и самых популярных продуктов компании. Он состоит из более чем пяти миллиардов ссылок на изображения, взятые из открытой сети, в том числе из социальных сетей, созданных пользователями, и используется для обучения наиболее популярных моделей генерации искусственного интеллекта, представленных в настоящее время на рынке. Например, в Stable Diffusion используется LAION-5B, а Stability AI финансировал его разработку.
Исследователи обнаружили более 3000 подозрительных частей CSAM в данных публичного обучения. Фактические объёмы данных, вероятнее всего, намного выше — учитывая, что исследование касается сентябрьского набора данных, и оно сосредоточено лишь на небольшой части набора миллиардов изображений.
Анализ баз проводился с помощью инструмента, который позволяет сопоставлять цифровые отпечатки рассматриваемых изображений с известными частями CSAM. Исследование Стэнфорда показало, что Stable Diffusion частично обучается на нелегальном детском контенте, включая CSAM, взятый с основных сайтов, таких как Reddit, Twitter (теперь X) и WordPress.
Не только Stable Diffusion использует LAION-5B, но также Midjourney. Google Imagen обучался на другом, но родственном наборе данных под названием LAION-400M, но после того, как разработчики обнаружили в данных проблемные изображения и стереотипы, они «сочли его непригодным для публичного использования», говорится в отчёте.
Это открытие, по мнению Стэнфордской интернет-обсерватории, подчеркивает опасность неизбирательного сбора данных из интернета в целях создания генеративного искусственного интеллекта.
Публичные чаты руководства LAION на официальном сервере Discord организации показывают, что они знали о возможности включения CSAM в их наборы данных еще в 2021 году.
«Думаю, распространение ссылки на такое изображение, как детское порно, можно считать незаконным, – написал ведущий инженер LAION Ричард Венку в ответ на вопрос исследователя, как LAION обрабатывает потенциально незаконные данные, которые могут быть включены в набор данных. – Мы пытались устранить такие вещи, но нет никакой гарантии, что все они исчезнут».
В начале текущего года Стэнфордская обсерватория также предупреждала, что генерирование контента с помощью ИИ несёт риски того, что правда и ложь станут неотличимыми как для отдельных людей, так и для общества любого масштаба.
Главное за неделю в области права.
23 декабря 2022 года Минюст включил Роскомсвободу в реестр незарегистрированных общественных объединений, выполняющих функции иностранного агента. Мы не согласны с этим решением и обжалуем его в суде.