Некоммерческая организация Creative Commons (CC), которая создала одноименные свободные и открытые публичные лицензии, представила CC signals — набор юридических и технических инструментов, позволяющих владельцам датасетов указывать условия использования их контента машинами. Проект нацелен на то, чтобы сохранить баланс между открытым интернетом и растущим спросом на данные для обучения ИИ.
По мнению авторов, бесконтрольное извлечение данных может привести к обратному эффекту: сайты начнут закрываться за платными стенами, чтобы защититься от ИИ-скрейпинга. Уже сейчас Reddit ограничивает доступ ботам через robots.txt, Cloudflare разрабатывает платные схемы для ИИ-агентов, а разработчики создают инструменты, которые «тратят» ресурсы неэтичного скрейпера.
CC signals предлагает альтернативу: вместо запретов — прозрачные сигналы, которые указывают, можно ли использовать контент для обучения ИИ, и на каких условиях. Эти сигналы могут быть юридически обязательными или носить рекомендательный характер, но всегда несут этическую нагрузку — как и лицензии CC, на которых построен современный открытый веб.
Среди возможных условий — обязательство указывать источник, делать вклад в развитие экосистемы или делиться результатами (например, открывать код модели). Всё это оформляется в машиночитаемом и человекочитаемом виде.
Проект пока на ранней стадии: опубликованы первые черновики, сбор обратной связи открыт на GitHub, а альфа-версия ожидается в ноябре 2025 года. Creative Commons надеется, что CC signals станет новым общественным договором между теми, кто делится знаниями, и теми, кто их перерабатывает с помощью ИИ.
Главное за неделю в области права.
23 декабря 2022 года Минюст включил Роскомсвободу в реестр незарегистрированных общественных объединений, выполняющих функции иностранного агента. Мы не согласны с этим решением и обжалуем его в суде.