Las investigaciones más recientes revelan los riesgos potenciales de confiabilidad de los modelos GPT: la filtración de privacidad y los sesgos se convierten en el foco de atención.

2025-07-28 23:38:16

Generación de resúmenes en curso

Explorando la confiabilidad de los modelos de lenguaje: evaluación completa del modelo GPT

Un equipo compuesto por varias universidades e instituciones de investigación ha publicado recientemente un estudio de evaluación integral sobre la confiabilidad de los grandes modelos de lenguaje (LLMs). Este estudio, titulado "DecodingTrust", realiza una evaluación exhaustiva de la confiabilidad del modelo GPT, revelando algunas vulnerabilidades relacionadas con la confiabilidad que no se habían hecho públicas anteriormente.

La investigación ha encontrado que los modelos GPT tienden a generar salidas sesgadas y perjudiciales, y pueden filtrar información privada de los datos de entrenamiento y el historial de conversaciones. Curiosamente, aunque el GPT-4 generalmente es más confiable que el GPT-3.5 en pruebas de referencia estándar, cuando se enfrenta a sistemas diseñados maliciosamente o indicaciones de usuarios, el GPT-4 es más susceptible a ataques. Esto puede deberse a que el GPT-4 sigue de manera más precisa instrucciones engañosas.

El equipo de investigación evaluó el modelo GPT desde ocho diferentes perspectivas de credibilidad, incluyendo la robustez frente a ataques adversariales, toxicidad y sesgo, filtración de privacidad, entre otros aspectos. Construyeron múltiples escenarios de evaluación y utilizaron estándares de referencia y conjuntos de datos desafiantes diseñados por ellos mismos para realizar las pruebas.

En términos de demostraciones adversariales, se ha encontrado que los modelos GPT no son engañados por ejemplos contrafactuales, pero pueden hacer predicciones erróneas influenciadas por demostraciones anti-fraude. En cuanto a la toxicidad y el sesgo, los modelos GPT tienen poco sesgo en la mayoría de los temas bajo indicaciones benignas, pero son propensos a generar contenido sesgado bajo indicaciones engañosas.

En términos de protección de la privacidad, se ha descubierto que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, GPT-4 tiende a revelar información privada con más facilidad que GPT-3.5, lo que podría deberse a que sigue instrucciones engañosas de manera más estricta.

Este estudio nos proporciona una evaluación completa de la credibilidad de los modelos GPT, revelando los problemas existentes y los riesgos potenciales. El equipo de investigación espera que este trabajo pueda alentar a más investigadores a centrarse en este campo y trabajar juntos para crear modelos más robustos y confiables. También han hecho público el código de los estándares de evaluación para fomentar una colaboración más amplia.

Con el uso generalizado de los modelos de lenguaje en diversas aplicaciones, incluidas algunas áreas sensibles, se vuelve cada vez más importante una evaluación integral de su credibilidad. Este estudio nos proporciona valiosas ideas que nos ayudan a comprender y mejorar mejor estas potentes herramientas de IA.

GPT-14.48%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

20 me gusta

Recompensa
20
5
Compartir

Comentar

0/400

MetaverseHobo

· hace9h

La filtración de privacidad es realmente aterradora.

Ver originalesResponder0

fren.eth

· 07-29 00:08

gpt lo entiende todo, no es confiable

Ver originalesResponder0

LiquidityWitch

· 07-29 00:08

¿Tienes miedo y amor, verdad?

Ver originalesResponder0

BlockchainBard

· 07-28 23:53

Solo hay que devolver el dinero.

Ver originalesResponder0

TerraNeverForget

· 07-28 23:51

¿GPT es solo un tigre de papel?

Ver originalesResponder0

Tema
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
17k Popularidad
2White House Crypto Report
5k Popularidad
3Growth Points Draw Round 12 Opens
72 Popularidad
4Fed Holds Rates Decision
6k Popularidad
5Alpha Points System Opens
14k Popularidad

Anclado