30 августа 2024

Крупные сайты отказали Apple в сборе данных для обучения ИИ

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ «РОСКОМСВОБОДА» ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА «РОСКОМСВОБОДА». 18+
Связано это в основном с до сих пор неразрешённым вопросом по части использования объектов авторских прав платформами искусственного интеллекта.

Как сообщает издание Wired, этим летом Apple ввела новый инструмент Applebot-Extended, который позволяет владельцам сайтов блокировать использование своих данных для обучения ИИ. Этот инструмент является расширением существующего Applebot, который изначально был разработан для индексации контента в поисковых продуктах Apple, таких как Siri и Spotlight. Теперь, однако, этот бот используется и для сбора данных для обучения ИИ, что вызвало беспокойство у многих издателей.

В результате, множество крупных новостных изданий и социальных платформ, включая The New York Times, Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, сеть USA Today и материнская компания Wired — Condé Nast уже воспользовались этой возможностью, исключив свои данные из процессов обучения ИИ от Apple.

«Столь холодный прием отражает существенный сдвиг как в восприятии, так и в использовании роботизированных сканеров, которые десятилетиями бороздили просторы интернета. Теперь, когда эти боты играют ключевую роль в сборе данных для обучения ИИ, они стали зоной конфликта из-за интеллектуальной собственности и будущего Сети», — отмечает Wired.

Блокировка Applebot-Extended осуществляется через файл robots.txt, который регулирует, каким ботам разрешено или запрещено сканировать веб-сайты. Некоторые издатели уже обновили свои файлы robots.txt, чтобы заблокировать боты от OpenAI, Anthropic и других крупных игроков на рынке ИИ.

Несмотря на недавние нововведения, Applebot-Extended пока что блокируется относительно небольшим числом сайтов. Исследования, проведенные компаниями Originality AI и Dark Visitors, показывают, что примерно 6-7% высокопосещаемых веб-сайтов уже запретили использование своих данных для обучения ИИ-моделей Apple.

Особенно активно блокируют доступ ботов сайты новостных изданий. Например, более четверти новостных сайтов, опрошенных Беном Уэлшем, блокируют Applebot-Extended. В сравнении, 53% из этих же сайтов блокируют боты от OpenAI, а 43% — от Google.

Интересно, что блокировка ботов иногда связана с отсутствием коммерческих соглашений между издателями и ИИ-компаниями. Некоторые издатели разрешают доступ к своим данным только после заключения партнерских договоров, как это произошло с Condé Nast, которая после заключения соглашения с OpenAI сняла блокировку со своих сайтов.

Однако процесс блокировки остается сложным и требует ручной настройки файла robots.txt, что создает сложности для издателей, особенно в условиях появления новых ИИ-агентов. Некоторым из них, например Buzzfeed, проще заблокировать все ИИ-боты, если только их владельцы не заключили с ними коммерческое соглашение.

Представители The New York Times выразили свою озабоченность по поводу того, что инструмент Applebot-Extended предлагает только возможность отказаться от использования данных, тогда как, по их мнению, коммерческое использование контента без разрешения нарушает закон об авторском праве. The New York Times продолжит добавлять неавторизованные боты в свой список блокировки, чтобы защитить свои данные.

В то время как Apple продолжает развивать технологии ИИ, борьба за данные, используемые для обучения этих моделей, разворачивается в файлах robots.txt, ставших ареной конфликта между издателями и технологическими гигантами.

Контакты

По общим вопросам

[email protected]

По юридическим вопросам

[email protected]

Для СМИ

Телеграм: moi_fee
Signal: moi_fee.13

18+

23 декабря 2022 года Минюст включил Роскомсвободу в реестр незарегистрированных общественных объединений, выполняющих функции иностранного агента. Мы не согласны с этим решением и обжалуем его в суде.