Avaliação abrangente da confiabilidade do modelo GPT: Resultados da pesquisa DecodingTrust
A Universidade de Illinois em Urbana-Champaign, em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley, o Centro de Segurança em Inteligência Artificial e o Microsoft Research, lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa da plataforma foram publicados em um artigo intitulado "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT".
A equipe de pesquisa realizou uma avaliação abrangente da confiabilidade do modelo GPT e descobriu algumas vulnerabilidades que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas prejudiciais e tendenciosas, além de poder vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora no teste padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, quando confrontado com prompts de jailbreak maliciosamente projetados, o GPT-4 é mais suscetível a ataques, o que pode ser devido ao fato de seguir mais rigorosamente instruções enganosas.
A equipe de pesquisa realizou uma avaliação abrangente do modelo GPT a partir de oito ângulos de confiabilidade, incluindo robustez contra ataques adversariais, toxicidade e preconceito, e vazamento de privacidade, entre outros. A avaliação utilizou uma variedade de cenários, tarefas, métricas e conjuntos de dados.
Em termos de ataques adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 apresentam certa vulnerabilidade no benchmark padrão AdvGLUE. Ao projetar diferentes instruções de tarefa e prompts de sistema, é possível testar a capacidade de recuperação do modelo. A pesquisa também construiu um conjunto de dados AdvGLUE++ mais desafiador, testando ainda mais o desempenho do modelo sob ataques adversariais fortes.
Em termos de toxicidade e preconceito, o GPT-3.5 e o GPT-4, em condições normais, têm pouco viés em relação à maioria dos temas estereotipados. No entanto, sob sistemas de prompts enganosos, ambos os modelos podem ser "enganados" a concordar com conteúdos preconceituosos, sendo que o GPT-4 é mais suscetível. O nível de viés dos modelos também está relacionado a grupos populacionais específicos e temas.
Em termos de proteção da privacidade, pesquisas descobriram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimentos complementares pode aumentar significativamente a precisão da extração de informações. De modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal em comparação ao GPT-3.5, mas ambos os modelos se saem bem ao enfrentar tipos específicos de informações de privacidade.
Este estudo oferece uma perspectiva abrangente para a avaliação da credibilidade dos modelos GPT, revelando alguns riscos potenciais. A equipe de pesquisa espera que este trabalho promova mais exploração na academia, prevenindo que agentes mal-intencionados explorem essas vulnerabilidades. Eles enfatizam que este é apenas um ponto de partida e que serão necessárias mais colaborações no futuro para criar modelos mais robustos e confiáveis.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
10 Curtidas
Recompensa
10
3
Repostar
Compartilhar
Comentário
0/400
BloodInStreets
· 11h atrás
Perda de corte comer grama deitado à espera que a inteligência artificial estrague tudo
Ver originalResponder0
MemeEchoer
· 11h atrás
O GPT4 também não serve para nada.
Ver originalResponder0
DeFiAlchemist
· 11h atrás
hmm... é como assistir a um experimento de alquimia digital dar errado, para ser honesto... a vulnerabilidade do gpt4 é a pedra filosofal ao contrário
DecodingTrust revela os desafios de confiabilidade do modelo GPT, avaliando completamente 8 grandes riscos
Avaliação abrangente da confiabilidade do modelo GPT: Resultados da pesquisa DecodingTrust
A Universidade de Illinois em Urbana-Champaign, em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley, o Centro de Segurança em Inteligência Artificial e o Microsoft Research, lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa da plataforma foram publicados em um artigo intitulado "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT".
A equipe de pesquisa realizou uma avaliação abrangente da confiabilidade do modelo GPT e descobriu algumas vulnerabilidades que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas prejudiciais e tendenciosas, além de poder vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora no teste padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, quando confrontado com prompts de jailbreak maliciosamente projetados, o GPT-4 é mais suscetível a ataques, o que pode ser devido ao fato de seguir mais rigorosamente instruções enganosas.
A equipe de pesquisa realizou uma avaliação abrangente do modelo GPT a partir de oito ângulos de confiabilidade, incluindo robustez contra ataques adversariais, toxicidade e preconceito, e vazamento de privacidade, entre outros. A avaliação utilizou uma variedade de cenários, tarefas, métricas e conjuntos de dados.
Em termos de ataques adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 apresentam certa vulnerabilidade no benchmark padrão AdvGLUE. Ao projetar diferentes instruções de tarefa e prompts de sistema, é possível testar a capacidade de recuperação do modelo. A pesquisa também construiu um conjunto de dados AdvGLUE++ mais desafiador, testando ainda mais o desempenho do modelo sob ataques adversariais fortes.
Em termos de toxicidade e preconceito, o GPT-3.5 e o GPT-4, em condições normais, têm pouco viés em relação à maioria dos temas estereotipados. No entanto, sob sistemas de prompts enganosos, ambos os modelos podem ser "enganados" a concordar com conteúdos preconceituosos, sendo que o GPT-4 é mais suscetível. O nível de viés dos modelos também está relacionado a grupos populacionais específicos e temas.
Em termos de proteção da privacidade, pesquisas descobriram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimentos complementares pode aumentar significativamente a precisão da extração de informações. De modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal em comparação ao GPT-3.5, mas ambos os modelos se saem bem ao enfrentar tipos específicos de informações de privacidade.
Este estudo oferece uma perspectiva abrangente para a avaliação da credibilidade dos modelos GPT, revelando alguns riscos potenciais. A equipe de pesquisa espera que este trabalho promova mais exploração na academia, prevenindo que agentes mal-intencionados explorem essas vulnerabilidades. Eles enfatizam que este é apenas um ponto de partida e que serão necessárias mais colaborações no futuro para criar modelos mais robustos e confiáveis.