Evaluación integral de la confiabilidad del modelo GPT: Resultados de la investigación DecodingTrust
La Universidad de Illinois en Urbana-Champaign, junto con la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad en Inteligencia Artificial y Microsoft Research, ha lanzado una plataforma integral de evaluación de confiabilidad para los grandes modelos de lenguaje (LLMs). Los resultados de esta investigación se publicaron en un artículo titulado "DecodingTrust: Evaluación Integral de la Confiabilidad de los Modelos GPT".
El equipo de investigación realizó una evaluación exhaustiva de la confiabilidad del modelo GPT y descubrió algunas vulnerabilidades que no habían sido reveladas anteriormente. Por ejemplo, el modelo GPT tiende a generar salidas dañinas y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y el historial de conversación. Aunque en pruebas estándar GPT-4 suele ser más confiable que GPT-3.5, al enfrentarse a mensajes de jailbreak diseñados maliciosamente, GPT-4 es más susceptible a ataques, lo que puede deberse a que sigue más estrictamente las instrucciones engañosas.
El equipo de investigación realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de confiabilidad, incluyendo la robustez contra ataques adversariales, toxicidad y sesgo, y filtración de privacidad, entre otros aspectos. La evaluación utilizó una variedad de escenarios, tareas, métricas y conjuntos de datos.
En términos de ataques adversariales, se ha descubierto que tanto GPT-3.5 como GPT-4 muestran cierta vulnerabilidad en el estándar AdvGLUE. Al diseñar diferentes instrucciones de tareas y mensajes del sistema, se puede probar la capacidad de recuperación del modelo. La investigación también construyó un conjunto de datos AdvGLUE++ más desafiante para probar aún más el rendimiento del modelo bajo ataques adversariales fuertes.
En términos de toxicidad y sesgo, GPT-3.5 y GPT-4 generalmente tienen poco sesgo en la mayoría de los temas estereotipados. Sin embargo, bajo indicaciones engañosas del sistema, ambos modelos pueden ser "engañados" para aceptar contenido sesgado, siendo GPT-4 el más susceptible. El nivel de sesgo de los modelos también está relacionado con grupos demográficos específicos y temas.
En términos de protección de la privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede aumentar significativamente la precisión de la extracción de información. En general, GPT-4 es más robusto en la protección de la información de identificación personal que GPT-3.5, pero ambos modelos se desempeñan bien al enfrentar ciertos tipos de información privada.
Este estudio proporciona una perspectiva integral para la evaluación de la credibilidad de los modelos GPT, revelando algunos riesgos potenciales. El equipo de investigación espera que este trabajo fomente una mayor exploración en la academia y prevenga que actores malintencionados aprovechen estas vulnerabilidades. Enfatizan que esto es solo un punto de partida, y que se necesita más colaboración en el futuro para crear modelos más robustos y confiables.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
10 me gusta
Recompensa
10
3
Republicar
Compartir
Comentar
0/400
BloodInStreets
· hace9h
Reducir pérdidas comer pasto tirado esperando que la IA acabe
Ver originalesResponder0
MemeEchoer
· hace9h
GPT4 tampoco sirve de mucho.
Ver originalesResponder0
DeFiAlchemist
· hace9h
hmm... como ver un experimento de alquimia digital salir mal, para ser honesto... la vulnerabilidad de gpt4 es la piedra filosofal al revés
DecodingTrust revela los desafíos de confiabilidad del modelo GPT, evaluando en profundidad 8 grandes riesgos.
Evaluación integral de la confiabilidad del modelo GPT: Resultados de la investigación DecodingTrust
La Universidad de Illinois en Urbana-Champaign, junto con la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad en Inteligencia Artificial y Microsoft Research, ha lanzado una plataforma integral de evaluación de confiabilidad para los grandes modelos de lenguaje (LLMs). Los resultados de esta investigación se publicaron en un artículo titulado "DecodingTrust: Evaluación Integral de la Confiabilidad de los Modelos GPT".
El equipo de investigación realizó una evaluación exhaustiva de la confiabilidad del modelo GPT y descubrió algunas vulnerabilidades que no habían sido reveladas anteriormente. Por ejemplo, el modelo GPT tiende a generar salidas dañinas y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y el historial de conversación. Aunque en pruebas estándar GPT-4 suele ser más confiable que GPT-3.5, al enfrentarse a mensajes de jailbreak diseñados maliciosamente, GPT-4 es más susceptible a ataques, lo que puede deberse a que sigue más estrictamente las instrucciones engañosas.
El equipo de investigación realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de confiabilidad, incluyendo la robustez contra ataques adversariales, toxicidad y sesgo, y filtración de privacidad, entre otros aspectos. La evaluación utilizó una variedad de escenarios, tareas, métricas y conjuntos de datos.
En términos de ataques adversariales, se ha descubierto que tanto GPT-3.5 como GPT-4 muestran cierta vulnerabilidad en el estándar AdvGLUE. Al diseñar diferentes instrucciones de tareas y mensajes del sistema, se puede probar la capacidad de recuperación del modelo. La investigación también construyó un conjunto de datos AdvGLUE++ más desafiante para probar aún más el rendimiento del modelo bajo ataques adversariales fuertes.
En términos de toxicidad y sesgo, GPT-3.5 y GPT-4 generalmente tienen poco sesgo en la mayoría de los temas estereotipados. Sin embargo, bajo indicaciones engañosas del sistema, ambos modelos pueden ser "engañados" para aceptar contenido sesgado, siendo GPT-4 el más susceptible. El nivel de sesgo de los modelos también está relacionado con grupos demográficos específicos y temas.
En términos de protección de la privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede aumentar significativamente la precisión de la extracción de información. En general, GPT-4 es más robusto en la protección de la información de identificación personal que GPT-3.5, pero ambos modelos se desempeñan bien al enfrentar ciertos tipos de información privada.
Este estudio proporciona una perspectiva integral para la evaluación de la credibilidad de los modelos GPT, revelando algunos riesgos potenciales. El equipo de investigación espera que este trabajo fomente una mayor exploración en la academia y prevenga que actores malintencionados aprovechen estas vulnerabilidades. Enfatizan que esto es solo un punto de partida, y que se necesita más colaboración en el futuro para crear modelos más robustos y confiables.