DecodingTrust раскрывает проблемы доверия к моделям GPT: комплексная оценка 8 основных рисков

robot
Генерация тезисов в процессе

Полная оценка надежности модели GPT: Результаты исследования DecodingTrust

Университет Иллинойс в Урбана-Шампейн совместно со Стэнфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательским институтом Майкрософт запустил комплексную платформу оценки надежности для крупных языковых моделей (LLMs). Результаты исследования этой платформы опубликованы в статье под заголовком «DecodingTrust: комплексная оценка надежности моделей GPT».

Исследовательская команда провела всестороннюю оценку надежности модели GPT и обнаружила некоторые ранее нераскрытые уязвимости. Например, модель GPT склонна генерировать вредный и предвзятый вывод, а также может раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, в условиях злонамеренно спроектированных побочных команд GPT-4 оказывается более уязвимым к атакам, что может быть связано с тем, что она более строго следует вводящим в заблуждение указаниям.

Исследовательская команда провела всестороннюю оценку модели GPT с восьми углов доверия, включая устойчивость к нападениям, токсичность и предвзятость, утечку личной информации и другие аспекты. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.

В области противостояния атакам исследования показали, что GPT-3.5 и GPT-4 демонстрируют определенную уязвимость на стандартной базе AdvGLUE. С помощью разработки различных описаний задач и системных подсказок можно протестировать способность модели восстанавливаться. Исследование также создало более сложный набор данных AdvGLUE++, чтобы дополнительно проверить производительность модели под сильными противостоящими атаками.

Что касается токсичности и предвзятости, то в нормальных условиях GPT-3.5 и GPT-4 не проявляют значительной предвзятости по большинству стереотипных тем. Однако под влиянием вводящих в заблуждение системных подсказок обе модели могут быть "заставлены" согласиться с предвзятым содержанием, причем GPT-4 более подвержена этому влиянию. Степень предвзятости моделей также зависит от конкретных демографических групп и тем.

В области защиты конфиденциальности исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. В общем, GPT-4 более устойчив в защите личной идентифицирующей информации по сравнению с GPT-3.5, но обе модели хорошо справляются с определенными типами конфиденциальной информации.

Это исследование предоставляет всесторонний взгляд на оценку надежности моделей GPT, выявляя некоторые потенциальные риски. Исследовательская группа надеется, что эта работа сможет способствовать дальнейшему исследованию в академической среде, чтобы предотвратить использование этих уязвимостей недобросовестными участниками. Они подчеркивают, что это всего лишь отправная точка, и в будущем потребуется больше сотрудничества для создания более мощных и надежных моделей.

GPT5.91%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 3
  • Репост
  • Поделиться
комментарий
0/400
BloodInStreetsvip
· 11ч назад
Сокращение потерь ешь траву, лежи спокойно и жди, пока ИИ не закончится.
Посмотреть ОригиналОтветить0
MemeEchoervip
· 11ч назад
GPT-4 тоже не очень полезен.
Посмотреть ОригиналОтветить0
DeFiAlchemistvip
· 11ч назад
хм... как будто наблюдаешь за тем, как идет не так эксперимент цифровой алхимии, если честно... уязвимость gpt4 - это философский камень в обратном направлении
Посмотреть ОригиналОтветить0
  • Закрепить