Повна оцінка надійності моделей GPT: Результати дослідження DecodingTrust
Університет Іллінойс у Шампейн разом зі Стенфордським університетом, Каліфорнійським університетом у Берклі, Центром безпеки штучного інтелекту та дослідницькою лабораторією Microsoft запустили комплексну платформу для оцінки надійності великих мовних моделей (LLMs). Результати дослідження цієї платформи були опубліковані в статті під назвою «DecodingTrust: всебічна оцінка надійності моделей GPT».
Дослідницька команда провела всебічну оцінку надійності моделі GPT і виявила кілька раніше непублікуваних вразливостей. Наприклад, модель GPT схильна до створення шкідливих та упереджених виходів, а також може витокувати конфіденційні дані з навчальних даних та історії розмов. Хоча в стандартних тестах GPT-4 зазвичай є надійнішим, ніж GPT-3.5, у відповідь на шкідливо розроблені запити на вивільнення, GPT-4, навпаки, легше піддається атакам, можливо, через те, що вона суворіше дотримується оманливих інструкцій.
Дослідна команда провела всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи стійкість до атак, токсичність і упередженість, витоки приватності та інші аспекти. Оцінка проводилась з використанням різних сценаріїв, завдань, показників та наборів даних.
У дослідженнях вразливості до атак виявлено, що GPT-3.5 і GPT-4 демонструють певну вразливість на стандартному бенчмарку AdvGLUE. Можна протестувати здатність моделі до відновлення, розробивши різні завдання та системні підказки. Дослідження також створило більш складний набір даних AdvGLUE++, щоб далі перевірити ефективність моделі під час сильних атак.
У контексті токсичності та упередженості, GPT-3.5 та GPT-4 зазвичай мають незначну упередженість щодо більшості тем стереотипів. Але під впливом оманливих системних підказок обидві моделі можуть бути "підмануті" погодитися з упередженим контентом, причому GPT-4 є більш вразливим. Рівень упередженості моделей також залежить від конкретних демографічних груп та тем.
У сфері захисту конфіденційності дослідження виявили, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво підвищити точність витягання інформації. Загалом, GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі добре справляються з певними типами конфіденційної інформації.
Дослідження забезпечує всебічний погляд на оцінку надійності моделей GPT, виявляючи деякі потенційні ризики. Дослідницька команда сподівається, що ця робота сприятиме подальшим дослідженням у академічному середовищі, запобігаючи використанню цих вразливостей недоброчесними особами. Вони підкреслюють, що це лише початок, і в майбутньому потрібно більше співпраці для створення більш потужних і надійних моделей.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
11 лайків
Нагородити
11
4
Репост
Поділіться
Прокоментувати
0/400
WalletDetective
· 26хв. тому
Це ж не просто викриває маленькі хитрощі штучного інтелекту.
Переглянути оригіналвідповісти на0
BloodInStreets
· 14год тому
Скорочення втрат їсти траву лежачи, чекати, поки AI все зруйнує
Переглянути оригіналвідповісти на0
MemeEchoer
· 14год тому
GPT4 теж не має жодної користі.
Переглянути оригіналвідповісти на0
DeFiAlchemist
· 14год тому
гмм... схоже на те, як спостерігаєш за тим, як цифровий алхімічний експеримент йде не так, чесно кажучи... вразливість gpt4 є філософським каменем у зворотному напрямку
DecodingTrust розкриває виклики довіри моделей GPT, всебічна оцінка 8 основних ризиків
Повна оцінка надійності моделей GPT: Результати дослідження DecodingTrust
Університет Іллінойс у Шампейн разом зі Стенфордським університетом, Каліфорнійським університетом у Берклі, Центром безпеки штучного інтелекту та дослідницькою лабораторією Microsoft запустили комплексну платформу для оцінки надійності великих мовних моделей (LLMs). Результати дослідження цієї платформи були опубліковані в статті під назвою «DecodingTrust: всебічна оцінка надійності моделей GPT».
Дослідницька команда провела всебічну оцінку надійності моделі GPT і виявила кілька раніше непублікуваних вразливостей. Наприклад, модель GPT схильна до створення шкідливих та упереджених виходів, а також може витокувати конфіденційні дані з навчальних даних та історії розмов. Хоча в стандартних тестах GPT-4 зазвичай є надійнішим, ніж GPT-3.5, у відповідь на шкідливо розроблені запити на вивільнення, GPT-4, навпаки, легше піддається атакам, можливо, через те, що вона суворіше дотримується оманливих інструкцій.
Дослідна команда провела всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи стійкість до атак, токсичність і упередженість, витоки приватності та інші аспекти. Оцінка проводилась з використанням різних сценаріїв, завдань, показників та наборів даних.
У дослідженнях вразливості до атак виявлено, що GPT-3.5 і GPT-4 демонструють певну вразливість на стандартному бенчмарку AdvGLUE. Можна протестувати здатність моделі до відновлення, розробивши різні завдання та системні підказки. Дослідження також створило більш складний набір даних AdvGLUE++, щоб далі перевірити ефективність моделі під час сильних атак.
У контексті токсичності та упередженості, GPT-3.5 та GPT-4 зазвичай мають незначну упередженість щодо більшості тем стереотипів. Але під впливом оманливих системних підказок обидві моделі можуть бути "підмануті" погодитися з упередженим контентом, причому GPT-4 є більш вразливим. Рівень упередженості моделей також залежить від конкретних демографічних груп та тем.
У сфері захисту конфіденційності дослідження виявили, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво підвищити точність витягання інформації. Загалом, GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі добре справляються з певними типами конфіденційної інформації.
Дослідження забезпечує всебічний погляд на оцінку надійності моделей GPT, виявляючи деякі потенційні ризики. Дослідницька команда сподівається, що ця робота сприятиме подальшим дослідженням у академічному середовищі, запобігаючи використанню цих вразливостей недоброчесними особами. Вони підкреслюють, що це лише початок, і в майбутньому потрібно більше співпраці для створення більш потужних і надійних моделей.