Согласно недавнему опубликованному исследованию, американские ученые обнаружили, что ChatGPT можно легко манипулировать, чтобы получить ответ на любой вопрос, включая самые опасные.

Исследователям удалось заставить ChatGPT описать план по уничтожению человечества, тем самым выявив широко распространенную уязвимость в области генеративного ИИ. Стоит помнить, что в обычной ситуации чат-бот отказался бы способствовать пропаганде насилия.

Читать далее:

Команда, проводившая исследование, принадлежит Университету Карнеги-Меллона (CMU) (США) и Центру безопасности ИИ в Сан-Франциско (США).

Структура исследования

  • Команда, ответственная за исследование, использовала автоматизацию для тестирования команд, то есть запросов, сделанных ИИ, используя трюки со словами, называемыми суффиксами нарушителя, чтобы «свести систему с ума» и найти лазейки;
  • В исследовании была принята модель Meta LLaMA для поиска уязвимостей, поскольку она делает свой код ИИ общедоступным;
  • Исследование показало, что суффиксы-нарушители, вероятно, будут работать с любым искусственным интеллектом, генерирующим текст, что указывает на то, что эта уязвимость не ограничивается ChatGPT;
  • Разработчики были уведомлены о таких недостатках, но вероятность того, что злоумышленники запустят модели, подобные тем, что были в опросе, могут найти новые недостатки, все еще существует.

Это выявляет недостатки алгоритмов языковой модели, поскольку эти алгоритмы вычисляют следующее наиболее вероятное слово в заданном контексте, а суффиксы-нарушители нарушают это ожидаемое поведение.

В то время как такие компании, как OpenAI, нанимали экспертов для предотвращения оскорбительного поведения в своих ИИ и работали над повышением безопасности своих моделей, информационная безопасность в области ИИ остается чем-то вроде игры в кошки-мышки, комментирует профессор ИИ из PUC-SP. , Диого Ортис, член группы риска OpenAI.

По мере того, как вы разрабатываете методы обхода методов безопасности, технологии подхода к безопасности становятся все более изощренными. Нам всегда удавалось найти способ справиться.

Диого Ортис, профессор ИИ в PUC-SP и член группы риска OpenAI

По мере того как методы защиты становятся все более изощренными, появляются новые способы их обхода. В случае с этим тестируемым методом, называемым состязательными атаками, они неразборчивы по внешнему виду, содержат общепринятые в программном коде знаки (такие как «==», обозначающий равенство) и присоединенные слова, такие как «Seattlejust».

Эти уязвимости также подчеркивают информационное неравенство между языками. Если в защите для определенного языка меньше данных, легче найти недостатки.

«Если защита для португальского языка имеет меньше данных, требуется меньшее количество симуляций, пока не будут обнаружены сбои. Это разница между 15-значным паролем и 20-символьным паролем», — говорит профессор Института математики и статистики USP Фабио Козман. Фолья-де-Сан-Паулу.

Языковые модели обычно работают лучше на английском языке, что указывает на необходимость большего внимания к различным языкам и культурам. Этот вывод вызывает опасения по поводу безопасности разговорных ИИ в целом.

До запуска ChatGPT крупные технологические компании не решались развивать этот тип ИИ из-за прошлых оплошностей, таких как случай с чат-ботом Microsoft Tay, который произносил женоненавистнические оскорбления и поддерживал Гитлера.

В примечании Google указал, что ему известно об этой уязвимости и что «хотя это проблема с большими языковыми моделями, мы разработали важные средства защиты в Bard — например, те, которые постулируются в этом исследовании — и продолжим улучшать их в течение время», забил.

OpenAI, также в заметке, утверждает, что последовательно работает над тем, чтобы сделать модели более устойчивыми к атакам со стороны, включая выявление необычных шаблонов и работу красной команды по моделированию возможных рисков.

Мета, с другой стороны, предпочла не отвечать на вопросы, предложенные Лист.

Несмотря на эти проблемы, компании стремятся повысить безопасность своих ИИ и предотвратить потенциальные риски в будущем. Важно продолжать инвестировать в исследования и разработки, чтобы повысить безопасность и надежность ИИ, генерирующих текст.

По информации Фолья де С.Паулу

Вы смотрели новые видео на YouTube цифрового взгляда? Подписывайтесь на канал!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *