A "Batalha dos Cem Modelos" na Onda dos Grandes Modelos de IA
No mês passado, houve uma "guerra dos animais" no mundo da IA. De um lado está o Llama da Meta, que é muito apreciado pelos desenvolvedores devido à sua característica de código aberto. A empresa japonesa NEC, após referenciar o artigo e o código do Llama, rapidamente desenvolveu uma versão em japonês do ChatGPT, resolvendo o gargalo no desenvolvimento de IA no Japão.
O outro lado é o modelo grande chamado Falcon. Em maio deste ano, o Falcon-40B foi lançado, superando o Llama e ocupando o primeiro lugar na lista de LLMs de código aberto. Esta lista é elaborada pela comunidade de modelos de código aberto, fornecendo critérios de avaliação de capacidade de LLM e classificações. Na lista, Llama e Falcon alternam-se na liderança.
Após o lançamento do Llama 2, ele recuperou temporariamente o primeiro lugar; mas no início de setembro, o Falcon lançou a versão 180B, alcançando novamente uma classificação mais alta.
Curiosamente, os desenvolvedores do Falcon são do Instituto de Inovação Tecnológica de Abu Dhabi, na capital dos Emirados Árabes Unidos, e não de uma empresa de tecnologia. As autoridades dos Emirados Árabes Unidos afirmaram que a participação na competição de IA é para desestabilizar o status quo.
No dia seguinte ao lançamento do Falcon 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado para a lista dos "100 mais influentes na área de IA" da revista Time, junto com "pai da IA" Geoffrey Hinton, e Sam Altman da OpenAI.
Hoje, o campo da IA entrou numa fase de florescimento. Países e empresas com recursos financeiros estão tentando criar suas próprias versões do ChatGPT. Apenas na região do Golfo, já existem vários participantes. Em agosto, a Arábia Saudita comprou mais de 3000 chips H100 para universidades locais, a fim de treinar LLM.
O investidor Zhu Xiaohu comentou que, na época, o empreendedorismo na internet era considerado sem barreiras; hoje, as startups de grandes modelos de tecnologia sólida também evoluíram para uma batalha de centenas de modelos.
Por que a tecnologia de ponta, que antes era vista como de alto custo, se tornou um projeto que países competem para desenvolver?
O Transformer que provocou a revolução da IA
Independentemente da nacionalidade, os modelos grandes atuais, incluindo a série GPT, são todos baseados no algoritmo Transformer. Em 2017, oito cientistas do Google tornaram público o algoritmo Transformer no artigo "Attention Is All You Need", que se tornou o terceiro artigo mais citado na história da IA e é a chave para esta onda atual de entusiasmo pela IA.
Anteriormente, "ensinar máquinas a ler" tem sido um problema difícil para a academia. Ao contrário do reconhecimento de imagem, a leitura humana envolve a compreensão do contexto. Redes neurais antigas tinham dificuldade em entender textos longos, frequentemente resultando em erros de tradução.
Em 2014, o cientista da Google, Ilya, propôs redes neurais recorrentes (RNN) para processamento de linguagem natural, melhorando significativamente o desempenho do Google Tradutor. O RNN introduziu o "design cíclico", permitindo que a rede neural tivesse a capacidade de considerar o contexto.
A RNN acendeu a paixão na comunidade acadêmica, mas apresenta problemas como ineficiência e dificuldade em lidar com uma grande quantidade de parâmetros. A partir de 2015, Shazeel e outros começaram a desenvolver alternativas à RNN, resultando finalmente no Transformer.
O Transformer apresenta duas grandes melhorias em relação ao RNN: a primeira é o uso de codificação de posição em vez de design cíclico, permitindo cálculos em paralelo e aumentando significativamente a eficiência do treinamento; a segunda é o fortalecimento da capacidade de compreensão do contexto. O Transformer resolveu muitos problemas e gradualmente se tornou a solução predominante no campo do NLP.
Em 2019, a OpenAI desenvolveu o GPT-2 baseado no Transformer, chocando a academia. O Google imediatamente lançou o Meena, que superou o GPT-2 apenas aumentando parâmetros e capacidade computacional. O surgimento do Transformer fez com que a velocidade da inovação algorítmica diminuísse, e fatores de engenharia como dados, capacidade computacional, arquitetura de modelos, etc., tornaram-se chave na competição de IA.
O cientista da computação Andrew Ng acredita que a IA está se tornando uma tecnologia geral, assim como a eletricidade e a internet. A empresa de análise Semi Analysis prevê que outras grandes empresas de tecnologia devem em breve desenvolver modelos de grande porte que rivalizem com o desempenho do GPT-4.
Desafios por trás da batalha dos cem modelos
Até julho deste ano, o número de grandes modelos na China já atingiu 130, superando os 114 dos Estados Unidos. Além da China e dos EUA, outros países ricos também começaram a desenvolver grandes modelos locais, como o Bhashini da Índia e o HyperClova X da Naver da Coreia do Sul.
Esta situação lembra a era da bolha da internet. Embora o Transformer tenha reduzido a barreira de entrada para o desenvolvimento de grandes modelos, isso não significa que todos possam se tornar gigantes da IA. Tomando como exemplo a "Batalha dos Animais", embora o Falcon tenha vencido em termos de classificação, seu impacto na Meta é limitado.
Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva. A Meta estabeleceu sua estratégia de código aberto em 2015. Em outubro, a Meta também lançou a atividade "Incentivo para Criadores de IA", financiando desenvolvedores que usam o Llama 2 para resolver problemas sociais.
Atualmente, a série Llama da Meta tornou-se o padrão para LLMs de código aberto. Até o início de outubro, 8 dos 10 primeiros no ranking da Hugging Face foram desenvolvidos com base no Llama 2, com mais de 1500 LLMs utilizando seu protocolo de código aberto.
Embora a melhoria do desempenho seja um caminho viável, a maioria dos LLMs ainda apresenta uma diferença significativa em relação ao GPT-4. No teste AgentBench, o GPT-4 ficou em primeiro lugar com 4,41 pontos, enquanto o segundo colocado, Claude, obteve apenas 2,77 pontos, e muitos LLMs de código aberto ficaram em torno de 1 ponto. Essa diferença decorre da força da equipe da OpenAI e da experiência acumulada ao longo do tempo.
Portanto, a principal vantagem competitiva dos grandes modelos reside na construção de ecossistemas ( código aberto ) ou pura capacidade de inferência ( código fechado ). À medida que a comunidade de código aberto se desenvolve, o desempenho de vários LLMs pode convergir. A questão mais direta é que, além do Midjourney, parece que nenhum grande modelo conseguiu gerar lucro.
O dilema da ancoragem de valor
Em agosto deste ano, um artigo que previa que a OpenAI poderia declarar falência no final de 2024 gerou atenção. O artigo apontou que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI aumentaram rapidamente, com uma perda de cerca de 540 milhões de dólares em 2022, dependendo do investimento da Microsoft. Isso reflete o problema do desequilíbrio entre custos e receitas que os fornecedores de grandes modelos enfrentam em geral.
Os altos custos fazem com que os principais beneficiários sejam atualmente fabricantes de chips como a NVIDIA. Segundo a Omdia, a NVIDIA vendeu mais de 300 mil chips H100 no segundo trimestre, o que equivale ao peso de 4,5 aviões Boeing 747. Os lucros da NVIDIA dispararam, e o preço do H100 de segunda mão foi inflacionado para 40-50 mil dólares, enquanto o custo é de pouco mais de 3000 dólares.
O custo de computação tornou-se um obstáculo ao desenvolvimento da indústria. A Sequoia Capital estima que as empresas de tecnologia em todo o mundo gastarão 200 bilhões de dólares anualmente na construção de infraestrutura de grandes modelos, enquanto a receita anual dos grandes modelos é de no máximo 75 bilhões de dólares, resultando em uma lacuna de pelo menos 125 bilhões de dólares.
A maioria das empresas de software ainda não encontrou um modelo de lucro após investir grandes quantias. Mesmo gigantes como a Microsoft e a Adobe enfrentam desafios. O GitHub Copilot, em parceria com a OpenAI, perde entre 20 a 80 dólares por usuário por mês. A Adobe introduziu um sistema de pontos para a ferramenta Firefly AI, limitando o uso excessivo pelos usuários.
A maioria das principais aplicações dos grandes modelos ainda está limitada ao chat. Embora a OpenAI e o ChatGPT tenham impulsionado a revolução da IA, o valor de simplesmente treinar grandes modelos é questionável. Com o aumento da concorrência homogeneizada e o aumento dos modelos de código aberto, o espaço para fornecedores de grandes modelos puros pode diminuir ainda mais.
Assim como o sucesso do iPhone 4 não está no processador A4, mas sim no seu ecossistema de aplicações, o futuro dos grandes modelos também dependerá do valor que criam em aplicações práticas.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
13 Curtidas
Recompensa
13
6
Compartilhar
Comentário
0/400
NoodlesOrTokens
· 07-25 10:23
Não esperava que os Emirados Árabes Unidos estivessem envolvidos na batalha de modelos de IA.
Ver originalResponder0
PumpBeforeRug
· 07-24 05:35
Quem é o vencedor final ainda não é certo. Difícil de dizer~
Ver originalResponder0
SlowLearnerWang
· 07-24 05:33
O que é isso? Nenhum animal ganhou na luta.
Ver originalResponder0
BankruptcyArtist
· 07-24 05:26
Esses parâmetros interativos não são melhores do que usar um grande modelo para conectar com outro grande modelo.
Ver originalResponder0
SocialAnxietyStaker
· 07-24 05:21
Estão todos a fazer refresh no ranking, para quê? Não é um torneio de classificação.
Guerra dos Modelos de IA: Da Revolução Transformer à Competição Ecológica
A "Batalha dos Cem Modelos" na Onda dos Grandes Modelos de IA
No mês passado, houve uma "guerra dos animais" no mundo da IA. De um lado está o Llama da Meta, que é muito apreciado pelos desenvolvedores devido à sua característica de código aberto. A empresa japonesa NEC, após referenciar o artigo e o código do Llama, rapidamente desenvolveu uma versão em japonês do ChatGPT, resolvendo o gargalo no desenvolvimento de IA no Japão.
O outro lado é o modelo grande chamado Falcon. Em maio deste ano, o Falcon-40B foi lançado, superando o Llama e ocupando o primeiro lugar na lista de LLMs de código aberto. Esta lista é elaborada pela comunidade de modelos de código aberto, fornecendo critérios de avaliação de capacidade de LLM e classificações. Na lista, Llama e Falcon alternam-se na liderança.
Após o lançamento do Llama 2, ele recuperou temporariamente o primeiro lugar; mas no início de setembro, o Falcon lançou a versão 180B, alcançando novamente uma classificação mais alta.
Curiosamente, os desenvolvedores do Falcon são do Instituto de Inovação Tecnológica de Abu Dhabi, na capital dos Emirados Árabes Unidos, e não de uma empresa de tecnologia. As autoridades dos Emirados Árabes Unidos afirmaram que a participação na competição de IA é para desestabilizar o status quo.
No dia seguinte ao lançamento do Falcon 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado para a lista dos "100 mais influentes na área de IA" da revista Time, junto com "pai da IA" Geoffrey Hinton, e Sam Altman da OpenAI.
Hoje, o campo da IA entrou numa fase de florescimento. Países e empresas com recursos financeiros estão tentando criar suas próprias versões do ChatGPT. Apenas na região do Golfo, já existem vários participantes. Em agosto, a Arábia Saudita comprou mais de 3000 chips H100 para universidades locais, a fim de treinar LLM.
O investidor Zhu Xiaohu comentou que, na época, o empreendedorismo na internet era considerado sem barreiras; hoje, as startups de grandes modelos de tecnologia sólida também evoluíram para uma batalha de centenas de modelos.
Por que a tecnologia de ponta, que antes era vista como de alto custo, se tornou um projeto que países competem para desenvolver?
O Transformer que provocou a revolução da IA
Independentemente da nacionalidade, os modelos grandes atuais, incluindo a série GPT, são todos baseados no algoritmo Transformer. Em 2017, oito cientistas do Google tornaram público o algoritmo Transformer no artigo "Attention Is All You Need", que se tornou o terceiro artigo mais citado na história da IA e é a chave para esta onda atual de entusiasmo pela IA.
Anteriormente, "ensinar máquinas a ler" tem sido um problema difícil para a academia. Ao contrário do reconhecimento de imagem, a leitura humana envolve a compreensão do contexto. Redes neurais antigas tinham dificuldade em entender textos longos, frequentemente resultando em erros de tradução.
Em 2014, o cientista da Google, Ilya, propôs redes neurais recorrentes (RNN) para processamento de linguagem natural, melhorando significativamente o desempenho do Google Tradutor. O RNN introduziu o "design cíclico", permitindo que a rede neural tivesse a capacidade de considerar o contexto.
A RNN acendeu a paixão na comunidade acadêmica, mas apresenta problemas como ineficiência e dificuldade em lidar com uma grande quantidade de parâmetros. A partir de 2015, Shazeel e outros começaram a desenvolver alternativas à RNN, resultando finalmente no Transformer.
O Transformer apresenta duas grandes melhorias em relação ao RNN: a primeira é o uso de codificação de posição em vez de design cíclico, permitindo cálculos em paralelo e aumentando significativamente a eficiência do treinamento; a segunda é o fortalecimento da capacidade de compreensão do contexto. O Transformer resolveu muitos problemas e gradualmente se tornou a solução predominante no campo do NLP.
Em 2019, a OpenAI desenvolveu o GPT-2 baseado no Transformer, chocando a academia. O Google imediatamente lançou o Meena, que superou o GPT-2 apenas aumentando parâmetros e capacidade computacional. O surgimento do Transformer fez com que a velocidade da inovação algorítmica diminuísse, e fatores de engenharia como dados, capacidade computacional, arquitetura de modelos, etc., tornaram-se chave na competição de IA.
O cientista da computação Andrew Ng acredita que a IA está se tornando uma tecnologia geral, assim como a eletricidade e a internet. A empresa de análise Semi Analysis prevê que outras grandes empresas de tecnologia devem em breve desenvolver modelos de grande porte que rivalizem com o desempenho do GPT-4.
Desafios por trás da batalha dos cem modelos
Até julho deste ano, o número de grandes modelos na China já atingiu 130, superando os 114 dos Estados Unidos. Além da China e dos EUA, outros países ricos também começaram a desenvolver grandes modelos locais, como o Bhashini da Índia e o HyperClova X da Naver da Coreia do Sul.
Esta situação lembra a era da bolha da internet. Embora o Transformer tenha reduzido a barreira de entrada para o desenvolvimento de grandes modelos, isso não significa que todos possam se tornar gigantes da IA. Tomando como exemplo a "Batalha dos Animais", embora o Falcon tenha vencido em termos de classificação, seu impacto na Meta é limitado.
Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva. A Meta estabeleceu sua estratégia de código aberto em 2015. Em outubro, a Meta também lançou a atividade "Incentivo para Criadores de IA", financiando desenvolvedores que usam o Llama 2 para resolver problemas sociais.
Atualmente, a série Llama da Meta tornou-se o padrão para LLMs de código aberto. Até o início de outubro, 8 dos 10 primeiros no ranking da Hugging Face foram desenvolvidos com base no Llama 2, com mais de 1500 LLMs utilizando seu protocolo de código aberto.
Embora a melhoria do desempenho seja um caminho viável, a maioria dos LLMs ainda apresenta uma diferença significativa em relação ao GPT-4. No teste AgentBench, o GPT-4 ficou em primeiro lugar com 4,41 pontos, enquanto o segundo colocado, Claude, obteve apenas 2,77 pontos, e muitos LLMs de código aberto ficaram em torno de 1 ponto. Essa diferença decorre da força da equipe da OpenAI e da experiência acumulada ao longo do tempo.
Portanto, a principal vantagem competitiva dos grandes modelos reside na construção de ecossistemas ( código aberto ) ou pura capacidade de inferência ( código fechado ). À medida que a comunidade de código aberto se desenvolve, o desempenho de vários LLMs pode convergir. A questão mais direta é que, além do Midjourney, parece que nenhum grande modelo conseguiu gerar lucro.
O dilema da ancoragem de valor
Em agosto deste ano, um artigo que previa que a OpenAI poderia declarar falência no final de 2024 gerou atenção. O artigo apontou que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI aumentaram rapidamente, com uma perda de cerca de 540 milhões de dólares em 2022, dependendo do investimento da Microsoft. Isso reflete o problema do desequilíbrio entre custos e receitas que os fornecedores de grandes modelos enfrentam em geral.
Os altos custos fazem com que os principais beneficiários sejam atualmente fabricantes de chips como a NVIDIA. Segundo a Omdia, a NVIDIA vendeu mais de 300 mil chips H100 no segundo trimestre, o que equivale ao peso de 4,5 aviões Boeing 747. Os lucros da NVIDIA dispararam, e o preço do H100 de segunda mão foi inflacionado para 40-50 mil dólares, enquanto o custo é de pouco mais de 3000 dólares.
O custo de computação tornou-se um obstáculo ao desenvolvimento da indústria. A Sequoia Capital estima que as empresas de tecnologia em todo o mundo gastarão 200 bilhões de dólares anualmente na construção de infraestrutura de grandes modelos, enquanto a receita anual dos grandes modelos é de no máximo 75 bilhões de dólares, resultando em uma lacuna de pelo menos 125 bilhões de dólares.
A maioria das empresas de software ainda não encontrou um modelo de lucro após investir grandes quantias. Mesmo gigantes como a Microsoft e a Adobe enfrentam desafios. O GitHub Copilot, em parceria com a OpenAI, perde entre 20 a 80 dólares por usuário por mês. A Adobe introduziu um sistema de pontos para a ferramenta Firefly AI, limitando o uso excessivo pelos usuários.
A maioria das principais aplicações dos grandes modelos ainda está limitada ao chat. Embora a OpenAI e o ChatGPT tenham impulsionado a revolução da IA, o valor de simplesmente treinar grandes modelos é questionável. Com o aumento da concorrência homogeneizada e o aumento dos modelos de código aberto, o espaço para fornecedores de grandes modelos puros pode diminuir ainda mais.
Assim como o sucesso do iPhone 4 não está no processador A4, mas sim no seu ecossistema de aplicações, o futuro dos grandes modelos também dependerá do valor que criam em aplicações práticas.