DecodingTrust розкриває виклики довіри моделей GPT, всебічна оцінка 8 основних ризиків

robot
Генерація анотацій у процесі

Повна оцінка надійності моделей GPT: Результати дослідження DecodingTrust

Університет Іллінойс у Шампейн разом зі Стенфордським університетом, Каліфорнійським університетом у Берклі, Центром безпеки штучного інтелекту та дослідницькою лабораторією Microsoft запустили комплексну платформу для оцінки надійності великих мовних моделей (LLMs). Результати дослідження цієї платформи були опубліковані в статті під назвою «DecodingTrust: всебічна оцінка надійності моделей GPT».

Дослідницька команда провела всебічну оцінку надійності моделі GPT і виявила кілька раніше непублікуваних вразливостей. Наприклад, модель GPT схильна до створення шкідливих та упереджених виходів, а також може витокувати конфіденційні дані з навчальних даних та історії розмов. Хоча в стандартних тестах GPT-4 зазвичай є надійнішим, ніж GPT-3.5, у відповідь на шкідливо розроблені запити на вивільнення, GPT-4, навпаки, легше піддається атакам, можливо, через те, що вона суворіше дотримується оманливих інструкцій.

Дослідна команда провела всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи стійкість до атак, токсичність і упередженість, витоки приватності та інші аспекти. Оцінка проводилась з використанням різних сценаріїв, завдань, показників та наборів даних.

У дослідженнях вразливості до атак виявлено, що GPT-3.5 і GPT-4 демонструють певну вразливість на стандартному бенчмарку AdvGLUE. Можна протестувати здатність моделі до відновлення, розробивши різні завдання та системні підказки. Дослідження також створило більш складний набір даних AdvGLUE++, щоб далі перевірити ефективність моделі під час сильних атак.

У контексті токсичності та упередженості, GPT-3.5 та GPT-4 зазвичай мають незначну упередженість щодо більшості тем стереотипів. Але під впливом оманливих системних підказок обидві моделі можуть бути "підмануті" погодитися з упередженим контентом, причому GPT-4 є більш вразливим. Рівень упередженості моделей також залежить від конкретних демографічних груп та тем.

У сфері захисту конфіденційності дослідження виявили, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво підвищити точність витягання інформації. Загалом, GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі добре справляються з певними типами конфіденційної інформації.

Дослідження забезпечує всебічний погляд на оцінку надійності моделей GPT, виявляючи деякі потенційні ризики. Дослідницька команда сподівається, що ця робота сприятиме подальшим дослідженням у академічному середовищі, запобігаючи використанню цих вразливостей недоброчесними особами. Вони підкреслюють, що це лише початок, і в майбутньому потрібно більше співпраці для створення більш потужних і надійних моделей.

GPT4.47%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Репост
  • Поділіться
Прокоментувати
0/400
WalletDetectivevip
· 26хв. тому
Це ж не просто викриває маленькі хитрощі штучного інтелекту.
Переглянути оригіналвідповісти на0
BloodInStreetsvip
· 14год тому
Скорочення втрат їсти траву лежачи, чекати, поки AI все зруйнує
Переглянути оригіналвідповісти на0
MemeEchoervip
· 14год тому
GPT4 теж не має жодної користі.
Переглянути оригіналвідповісти на0
DeFiAlchemistvip
· 14год тому
гмм... схоже на те, як спостерігаєш за тим, як цифровий алхімічний експеримент йде не так, чесно кажучи... вразливість gpt4 є філософським каменем у зворотному напрямку
Переглянути оригіналвідповісти на0
  • Закріпити