Исследователи из университетов Вашингтона и Чикаго обнаружили эффективный способ обойти фильтрацию LLM, используя символы ASCII. Им удалось обмануть нейросети и получить ответы на запрещенные вопросы путем шифрования стоп-слов символами.
Если зашифровать запрещенные слова и выражения в виде изображений из символов ASCII, то нейросети будут интерпретировать их как безобидные и ответят на запросы, содержащие эти зашифрованные стоп-слова.
Этот новый вид атаки получил название ArtPrompt. Его суть заключается в том, чтобы преобразовать запрещенные термины в ASCII-арт и передать их языковой модели вместе с запросом. Ученые утверждают, что существующие методы защиты языковых моделей основаны на семантическом анализе текста. То есть нейросеть может распознать и заблокировать недопустимые запросы на основе содержащихся в них слов и смысловых конструкций. Однако если эти запрещенные элементы представлены в виде ASCII-изображений, система фильтрации не может их распознать, позволяя обойти ограничения.
Метод включает в себя два этапа: маскировку слов и создание скрытых подсказок. На первом этапе он маскирует чувствительные слова в запросе, чтобы избежать отклонения со стороны безопасности LLM. На этапе генерации скрытых подсказок используется ASCII-арт для замены слов на ASCII-графику. Затем сгенерированный рисунок заменяет исходную подсказку, отправляемую LLM для генерации ответа.
В ходе экспериментов исследователи пытались получить от языковых моделей инструкции по изготовлению бомбы, но сначала получали отказ. Однако, когда они заменяли слово «бомба» на ASCII-арт из звездочек и пробелов, запрос успешно выполнялся. На первом этапе атаки ученые замаскировали все запрещенные слова в запросе под слово «mask». Затем они сгенерировали ASCII-изображение запрещенного слова и отправили его в чат языковой модели. После этого ученые попросили модель заменить «mask» в запросе на слово из изображения и ответить на вопрос. В результате нейросеть проигнорировала все запреты и предоставила пошаговую инструкцию.
Аналогичным образом, запрос на производство поддельных денег был выполнен после того, как слово «counterfeit» (рус. фальшивый, поддельный) было представлено в форме ASCII-арта, что позволило модели предоставить детализированную инструкцию по изготовлению и распространению поддельной валюты.
В экспериментах использовали языковые модели GPT-3.5, GPT-4, Gemini, Claude и Llama 2. Все они умеют считывать слова, зашифрованные в ASCII-графике. ArtPrompt оказался эффективнее известных способов обхода фильтров.
The main news of the week in the field of law.
On December 23, 2022, the Ministry of Justice included Roskomsvoboda in the register of unregistered public associations performing the functions of a foreign agent. We disagree with this decision and are appealing it in court.