Как сообщает издание Wired, этим летом Apple ввела новый инструмент Applebot-Extended, который позволяет владельцам сайтов блокировать использование своих данных для обучения ИИ. Этот инструмент является расширением существующего Applebot, который изначально был разработан для индексации контента в поисковых продуктах Apple, таких как Siri и Spotlight. Теперь, однако, этот бот используется и для сбора данных для обучения ИИ, что вызвало беспокойство у многих издателей.



В результате, множество крупных новостных изданий и социальных платформ, включая The New York Times, Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, сеть USA Today и материнская компания Wired — Condé Nast уже воспользовались этой возможностью, исключив свои данные из процессов обучения ИИ от Apple.

«Столь холодный прием отражает существенный сдвиг как в восприятии, так и в использовании роботизированных сканеров, которые десятилетиями бороздили просторы интернета. Теперь, когда эти боты играют ключевую роль в сборе данных для обучения ИИ, они стали зоной конфликта из-за интеллектуальной собственности и будущего Сети», — отмечает Wired.

Блокировка Applebot-Extended осуществляется через файл robots.txt, который регулирует, каким ботам разрешено или запрещено сканировать веб-сайты. Некоторые издатели уже обновили свои файлы robots.txt, чтобы заблокировать боты от OpenAI, Anthropic и других крупных игроков на рынке ИИ.



Несмотря на недавние нововведения, Applebot-Extended пока что блокируется относительно небольшим числом сайтов. Исследования, проведенные компаниями Originality AI и Dark Visitors, показывают, что примерно 6-7% высокопосещаемых веб-сайтов уже запретили использование своих данных для обучения ИИ-моделей Apple.



Особенно активно блокируют доступ ботов сайты новостных изданий. Например, более четверти новостных сайтов, опрошенных Беном Уэлшем, блокируют Applebot-Extended. В сравнении, 53% из этих же сайтов блокируют боты от OpenAI, а 43% — от Google.



Интересно, что блокировка ботов иногда связана с отсутствием коммерческих соглашений между издателями и ИИ-компаниями. Некоторые издатели разрешают доступ к своим данным только после заключения партнерских договоров, как это произошло с Condé Nast, которая после заключения соглашения с OpenAI сняла блокировку со своих сайтов.



Однако процесс блокировки остается сложным и требует ручной настройки файла robots.txt, что создает сложности для издателей, особенно в условиях появления новых ИИ-агентов. Некоторым из них, например Buzzfeed, проще заблокировать все ИИ-боты, если только их владельцы не заключили с ними коммерческое соглашение.



Представители The New York Times выразили свою озабоченность по поводу того, что инструмент Applebot-Extended предлагает только возможность отказаться от использования данных, тогда как, по их мнению, коммерческое использование контента без разрешения нарушает закон об авторском праве. The New York Times продолжит добавлять неавторизованные боты в свой список блокировки, чтобы защитить свои данные.



В то время как Apple продолжает развивать технологии ИИ, борьба за данные, используемые для обучения этих моделей, разворачивается в файлах robots.txt, ставших ареной конфликта между издателями и технологическими гигантами.