В ближайшие недели Reddit лишит большинство автоматизированных ботов доступа к своим публичным данным. Для того чтобы использовать контент Reddit для обучения моделей искусственного интеллекта (ИИ), компаниям нужно будет заключать лицензионное соглашение, как это уже сделали Google и OpenAI.
Reddit обновит веб-стандарт robots.txt, который определяет, как поисковые боты могут получать доступ к сайту.
«Это сигнал для тех, у кого нет соглашения с нами, что они не имеют права получать доступ к данным Reddit. И также это сигнал для злоумышленников о том, что слово "разрешить" в robots.txt не означает и никогда не означало, что они могут использовать данные так, как им заблагорассудится», — заявил главный юрисконсульт компании Бен Ли.
Стандарт robots.txt был разработан на заре интернета, пишет The Verge. В первую очередь он давал разрешение поисковым системам, таким как Google, сканировать веб-сайт, чтобы индексировать его результаты. Последние 20 лет Google отправлял, в обмен на возможность сканирования, на сайт трафик, и это было выгодно обеим сторонам. Затем компании, занимающиеся искусственным интеллектом, стали использовать все данные, которые они могли найти в Сети, для обучения своих ИИ-моделей.
The main news of the week in the field of law.
On December 23, 2022, the Ministry of Justice included Roskomsvoboda in the register of unregistered public associations performing the functions of a foreign agent. We disagree with this decision and are appealing it in court.