Novas pesquisas revelam riscos potenciais na confiabilidade dos modelos GPT: a divulgação de privacidade e preconceitos como foco.

robot
Geração de resumo em curso

Explorar a Confiabilidade dos Modelos de Linguagem: Avaliação Abrangente dos Modelos GPT

Recentemente, uma equipe composta por várias universidades e instituições de pesquisa publicou um estudo abrangente sobre a confiabilidade do modelo de linguagem de grande escala (LLMs). Este estudo, intitulado "DecodingTrust", realizou uma avaliação completa da confiabilidade dos modelos GPT, revelando algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente.

A pesquisa descobriu que os modelos GPT tendem a produzir saídas tendenciosas e prejudiciais, e podem vazar informações de privacidade contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele se torna mais suscetível a ataques quando confrontado com sistemas ou prompts de usuários maliciosos. Isso pode ser porque o GPT-4 segue mais precisamente instruções enganosas.

A equipe de pesquisa avaliou o modelo GPT sob oito diferentes ângulos de credibilidade, incluindo robustez contra ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Eles construíram vários cenários de avaliação, utilizando benchmarks padrão e conjuntos de dados desafiadores projetados por eles.

Em termos de demonstrações adversariais, a pesquisa descobriu que o modelo GPT não é enganado por exemplos contrafactuais, mas pode fazer previsões erradas influenciado por demonstrações de fraude. Quanto à toxicidade e preconceito, o modelo GPT tem pouco preconceito na maioria dos tópicos sob indicações benignas, mas é suscetível a gerar conteúdo tendencioso sob indicações enganosas.

Em termos de proteção da privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em alguns casos, o GPT-4 é mais propenso a vazar informações pessoais do que o GPT-3.5, o que pode ser devido ao fato de seguir instruções enganosas de forma mais rigorosa.

Este estudo fornece uma avaliação abrangente da confiabilidade dos modelos GPT, revelando problemas e riscos potenciais. A equipe de pesquisa espera que este trabalho possa encorajar mais pesquisadores a se concentrarem nesta área, trabalhando juntos para criar modelos mais robustos e confiáveis. Eles também tornaram público o código de avaliação de referência, para promover uma colaboração mais ampla.

Com o uso generalizado de modelos de linguagem em várias aplicações, incluindo algumas áreas sensíveis, a avaliação abrangente de sua credibilidade tornou-se cada vez mais importante. Este estudo nos fornece percepções valiosas que ajudam a entender e melhorar essas poderosas ferramentas de IA.

GPT-9.47%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 4
  • Partilhar
Comentar
0/400
fren.ethvip
· 07-29 00:08
gpt toda a gente entende, mas não é confiável
Ver originalResponder0
LiquidityWitchvip
· 07-29 00:08
Tem medo e amor, não é?
Ver originalResponder0
BlockchainBardvip
· 07-28 23:53
Pagar é tudo o que importa.
Ver originalResponder0
TerraNeverForgetvip
· 07-28 23:51
gpt é apenas um tigre de papel?
Ver originalResponder0
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)