DecodingTrust révèle les défis de fiabilité des modèles GPT avec une évaluation complète de 8 grands risques

robot
Création du résumé en cours

Évaluation complète de la crédibilité du modèle GPT : Résultats de l'étude DecodingTrust

L'Université de l'Illinois à Urbana-Champaign a lancé en collaboration avec l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research une plateforme d'évaluation de la crédibilité intégrée pour les grands modèles de langage (LLMs). Les résultats de cette recherche ont été publiés dans un article intitulé "DecodingTrust: Évaluation complète de la crédibilité des modèles GPT."

L'équipe de recherche a réalisé une évaluation complète de la crédibilité du modèle GPT et a découvert certaines vulnérabilités qui n'avaient pas été précédemment divulguées. Par exemple, le modèle GPT a tendance à produire des sorties nuisibles et biaisées, et il peut également divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations. Bien que dans les tests standard, GPT-4 soit généralement plus fiable que GPT-3.5, il est en réalité plus vulnérable aux invites de jailbreak conçues de manière malveillante, ce qui peut être dû à sa stricte adhésion à des instructions trompeuses.

L'équipe de recherche a effectué une évaluation complète du modèle GPT sous huit angles de crédibilité, y compris la robustesse face aux attaques adversariales, la toxicité et les biais, ainsi que les fuites de confidentialité. L'évaluation a utilisé divers scénarios, tâches, indicateurs et ensembles de données.

En ce qui concerne les attaques adversariales, des recherches ont révélé que GPT-3.5 et GPT-4 présentent une certaine vulnérabilité sur la norme AdvGLUE. En concevant différentes instructions de tâches et invites système, il est possible de tester la capacité de récupération des modèles. L'étude a également construit un ensemble de données AdvGLUE++ plus difficile, testant davantage la performance des modèles sous des attaques adversariales fortes.

En ce qui concerne la toxicité et les préjugés, GPT-3.5 et GPT-4 montrent généralement peu de préjugés sur la plupart des thèmes stéréotypés. Cependant, sous des invites système trompeuses, les deux modèles peuvent être "amenés" à accepter des contenus biaisés, GPT-4 étant plus susceptible d'être influencé. Le degré de biais des modèles est également lié à des groupes démographiques et des sujets spécifiques.

En ce qui concerne la protection de la vie privée, des études ont révélé que les modèles GPT pourraient divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses e-mail. Dans certains cas, l'utilisation de connaissances complémentaires peut considérablement améliorer la précision de l'extraction d'informations. Dans l'ensemble, GPT-4 est plus robuste que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles se comportent bien face à certains types d'informations privées.

Cette recherche offre une perspective complète sur l'évaluation de la fiabilité des modèles GPT, révélant certains risques potentiels. L'équipe de recherche espère que ce travail pourra encourager le milieu académique à explorer davantage et à prévenir les comportements indésirables exploitant ces vulnérabilités. Ils soulignent que ce n'est qu'un point de départ, et qu'à l'avenir, davantage de collaboration sera nécessaire pour créer des modèles plus robustes et plus fiables.

GPT16.89%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • Reposter
  • Partager
Commentaire
0/400
BloodInStreetsvip
· Il y a 9h
Cut Loss manger de l'herbe, se coucher à attendre que l'IA soit foutue.
Voir l'originalRépondre0
MemeEchoervip
· Il y a 9h
GPT4 n'est pas très utile non plus.
Voir l'originalRépondre0
DeFiAlchemistvip
· Il y a 9h
hmm... comme regarder une expérience d'alchimie numérique se dérouler mal pour être honnête... la vulnérabilité de gpt4 est la pierre philosophale à l'envers
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)