DecodingTrust розкриває виклики довіри моделей GPT, всебічна оцінка 8 основних ризиків

2025-08-08 03:14:35

Генерація анотацій у процесі

Повна оцінка надійності моделей GPT: Результати дослідження DecodingTrust

Університет Іллінойс у Шампейн разом зі Стенфордським університетом, Каліфорнійським університетом у Берклі, Центром безпеки штучного інтелекту та дослідницькою лабораторією Microsoft запустили комплексну платформу для оцінки надійності великих мовних моделей (LLMs). Результати дослідження цієї платформи були опубліковані в статті під назвою «DecodingTrust: всебічна оцінка надійності моделей GPT».

Дослідницька команда провела всебічну оцінку надійності моделі GPT і виявила кілька раніше непублікуваних вразливостей. Наприклад, модель GPT схильна до створення шкідливих та упереджених виходів, а також може витокувати конфіденційні дані з навчальних даних та історії розмов. Хоча в стандартних тестах GPT-4 зазвичай є надійнішим, ніж GPT-3.5, у відповідь на шкідливо розроблені запити на вивільнення, GPT-4, навпаки, легше піддається атакам, можливо, через те, що вона суворіше дотримується оманливих інструкцій.

Дослідна команда провела всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи стійкість до атак, токсичність і упередженість, витоки приватності та інші аспекти. Оцінка проводилась з використанням різних сценаріїв, завдань, показників та наборів даних.

У дослідженнях вразливості до атак виявлено, що GPT-3.5 і GPT-4 демонструють певну вразливість на стандартному бенчмарку AdvGLUE. Можна протестувати здатність моделі до відновлення, розробивши різні завдання та системні підказки. Дослідження також створило більш складний набір даних AdvGLUE++, щоб далі перевірити ефективність моделі під час сильних атак.

У контексті токсичності та упередженості, GPT-3.5 та GPT-4 зазвичай мають незначну упередженість щодо більшості тем стереотипів. Але під впливом оманливих системних підказок обидві моделі можуть бути "підмануті" погодитися з упередженим контентом, причому GPT-4 є більш вразливим. Рівень упередженості моделей також залежить від конкретних демографічних груп та тем.

У сфері захисту конфіденційності дослідження виявили, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво підвищити точність витягання інформації. Загалом, GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі добре справляються з певними типами конфіденційної інформації.

Дослідження забезпечує всебічний погляд на оцінку надійності моделей GPT, виявляючи деякі потенційні ризики. Дослідницька команда сподівається, що ця робота сприятиме подальшим дослідженням у академічному середовищі, запобігаючи використанню цих вразливостей недоброчесними особами. Вони підкреслюють, що це лише початок, і в майбутньому потрібно більше співпраці для створення більш потужних і надійних моделей.

GPT4.47%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

11 лайків

Нагородити
11
4
Репост
Поділіться

Прокоментувати

0/400

WalletDetective

· 26хв. тому

Це ж не просто викриває маленькі хитрощі штучного інтелекту.

Переглянути оригіналвідповісти на0

BloodInStreets

· 14год тому

Скорочення втрат їсти траву лежачи, чекати, поки AI все зруйнує

Переглянути оригіналвідповісти на0

MemeEchoer

· 14год тому

GPT4 теж не має жодної користі.

Переглянути оригіналвідповісти на0

DeFiAlchemist

· 14год тому

гмм... схоже на те, як спостерігаєш за тим, як цифровий алхімічний експеримент йде не так, чесно кажучи... вразливість gpt4 є філософським каменем у зворотному напрямку

Переглянути оригіналвідповісти на0

Тема
#Gate & WLFI USD1 Points Program
38k Популярність
#Trump Allows 401(k) Crypto Investing
13k Популярність
#Join Copy Trading Share to Win $2,000
7k Популярність
#Show My Alpha Points
78k Популярність
#SOL Futures Reach New High
22k Популярність

Закріпити

карта сайту