GPT-5.5 '9,7T Parâmetros' Reavaliado: Revisado para Aproximadamente 1,5T

De acordo com monitoramento realizado pela Beating, os pesquisadores de IA Lawrence Chan e Benno Sturgeon publicaram uma análise do artigo do Cientista Chefe da Pine AI, Li Bojie, intitulado ‘Sondas de Conhecimento Incompressíveis: Estimando a Contagem de Parâmetros de Grandes Modelos de Linguagem de Caixa Preta com Base na Capacidade de Fatos.’ O artigo original estimou que o GPT-5.5 teria cerca de 9,7T, o Claude Opus 4.7 aproximadamente 4,0T, e o o1 cerca de 3,5T usando 1.400 perguntas de trivia para ‘avaliar’ os modelos de código fechado. Os revisores acreditam que, embora a abordagem em si seja valiosa, os números originais foram significativamente inflados devido aos critérios de pontuação e à qualidade das perguntas. A principal questão reside na ‘pontuação mínima.’ O artigo original dividiu as perguntas em sete níveis de dificuldade, e quando um modelo respondia muitas perguntas incorretamente em um determinado nível, a pontuação poderia teoricamente se tornar negativa; no entanto, o código realmente ajustava a pontuação mínima de cada nível para 0. Isso inflou a diferença de desempenho dos modelos de ponta em perguntas difíceis e aumentou ainda mais a contagem de parâmetros inferida. O artigo afirma que isso não foi tratado dessa forma, mas o código e os resultados publicados empregaram esse procedimento. Após remover a ‘pontuação mínima,’ a inclinação do ajuste caiu de 6,79 para 3,56. Essa inclinação pode ser entendida como ‘para cada ponto de aumento na pontuação, quanto crescimento de parâmetro é traduzido’; uma inclinação menor indica que a mesma diferença de pontuação não corresponde mais a uma diferença de parâmetro tão exagerada. O valor de R² caiu de 0,917 para 0,815, indicando que a curva de ajuste de ‘pontuação para contagem de parâmetros’ não é tão estável quanto no artigo original. O intervalo de previsão de 90% se expandiu de 3,0 vezes para 5,7 vezes, sugerindo uma margem de erro maior e que números pontuais não devem ser levados a sério. A análise também apontou que 131 de 1.400 perguntas apresentaram ambiguidades ou respostas incorretas, representando 9,4%. Os problemas estavam principalmente concentrados nas perguntas difíceis, usadas para diferenciar modelos de ponta de código fechado, como GPT-5.5 e Claude Opus 4.7. De acordo com seus critérios revisados, o GPT-5.5 foi reduzido de 9659B na versão original para 1458B, com um intervalo de previsão de 256B a 8311B; o Claude Opus 4.7 foi reduzido de 4042B para 1132B; e o GPT-5 foi reduzido de 4088B para 1330B. Os revisores também enfatizaram que 1,5T não deve ser considerado a contagem verdadeira de parâmetros para o GPT-5.5. Uma conclusão mais precisa é que esse método de ‘ponderação por trivia’ é altamente sensível aos detalhes de pontuação e à qualidade das perguntas, e números como 9,7T não podem ser usados diretamente como uma medida de peso para modelos de código fechado.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar