A batalha dos cem modelos na onda dos grandes modelos de IA: um problema de engenharia ou um desafio de pesquisa?

Question

# A "Guerra dos Cem Modelos" no campo da IA: problema de engenharia ou desafio científico?No mês passado, a indústria de IA desencadeou uma "guerra animal".De um lado está o modelo Llama lançado pela Meta, que é muito popular entre os desenvolvedores devido à sua natureza de código aberto. Após estudar o artigo e o código-fonte do Llama, uma empresa japonesa desenvolveu rapidamente uma versão em japonês do ChatGPT, resolvendo o problema do gargalo da IA no Japão.O outro lado é um grande modelo chamado Falcon. Em maio deste ano, o Falcon-40B foi lançado, superando o Llama e subindo ao primeiro lugar na lista dos modelos LLM de código aberto. Esta lista é produzida pela comunidade de modelos de código aberto e fornece padrões para avaliar a capacidade dos LLMs. A classificação é basicamente uma alternância entre Llama e Falcon.Após o lançamento do Llama 2, a série Llama está temporariamente à frente; mas no início de setembro, o Falcon lançou a versão 180B, obtendo novamente uma classificação mais alta.Curiosamente, os desenvolvedores do Falcon são do Instituto de Pesquisa em Inovação Tecnológica de Abu Dhabi, na capital dos Emirados Árabes Unidos. O governo dos Emirados Árabes Unidos afirmou: "Estamos envolvidos neste campo para desestabilizar os jogadores principais".No dia seguinte ao lançamento do Falcon 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado na lista dos "100 mais influentes no campo da IA" da revista Time; juntamente com ele, foram selecionados o "pai da IA" Geoffrey Hinton, Sam Altman da OpenAI, entre outros.Hoje, o campo da IA entrou numa fase de grande concorrência: qualquer país e empresa com algum poder financeiro está a desenvolver o seu próprio modelo de linguagem grande. Apenas no círculo dos países do Golfo, há mais de um participante - em agosto, a Arábia Saudita acabou de comprar mais de 3000 chips H100 para universidades nacionais para treinar LLM.Um investidor comentou: "Naquela época, eu subestimava a inovação dos modelos de negócios da internet, achando que não havia barreiras: batalha de cem grupos, batalha de cem carros, batalha de cem transmissões; não esperava que o empreendedorismo em modelos de hard tech ainda fosse uma batalha de cem modelos..."Como é que uma tecnologia de ponta que deveria ser de alta dificuldade se transformou numa situação em que cada país tem o mesmo modelo e a produção é de milhares de quilos por hectare?## Transformer devora o mundoAs startups americanas, gigantes tecnológicos chineses e magnatas do petróleo do Oriente Médio conseguem perseguir grandes modelos, tudo graças ao famoso artigo: "Attention Is All You Need".Em 2017, oito cientistas da computação do Google tornaram público o algoritmo Transformer neste artigo. Este é o terceiro artigo mais citado na história da inteligência artificial, e o surgimento do Transformer desencadeou esta onda atual de entusiasmo em IA.Atualmente, todos os grandes modelos, incluindo a série GPT que causou sensação mundial, são construídos sobre a base do Transformer.Até agora, "ensinar máquinas a ler" tem sido um desafio acadêmico reconhecido. Ao contrário do reconhecimento de imagem, quando os humanos leem, eles não se concentram apenas nas palavras e frases atuais, mas também entendem em conjunto com o contexto.As entradas das redes neurais iniciais eram independentes entre si, incapazes de compreender textos longos ou até mesmo artigos inteiros, levando a problemas como traduzir "开水间" para "open water room".Em 2014, após trabalhar no Google, o cientista da computação Ilya, que se transferiu para a OpenAI, foi o primeiro a alcançar um avanço. Ele usou redes neurais recorrentes (RNN) para processar linguagem natural, fazendo com que o desempenho do Google Tradutor superasse rapidamente os concorrentes.A RNN propõe o "design circular", permitindo que cada neurônio receba simultaneamente a entrada atual e a entrada do momento anterior, conferindo à rede neural a capacidade de "combinar contexto".A aparição das RNNs despertou o entusiasmo da comunidade acadêmica, e mais tarde o autor do artigo Transformer, Ashish Vaswani, também fez pesquisas aprofundadas. No entanto, os desenvolvedores rapidamente descobriram que as RNNs tinham sérios defeitos:Este algoritmo utiliza cálculos sequenciais, embora resolva o problema de contexto, a eficiência de execução não é alta, tornando difícil lidar com um grande número de parâmetros.O design complicado da RNN rapidamente cansou o Shazer. Assim, a partir de 2015, Shazer e sete outros aliados começaram a desenvolver um substituto para a RNN, cujo resultado final foi o Transformer.Em comparação com RNN, o Transformer tem duas grandes inovações:Uma é substituir o design cíclico do RNN por codificação de posição, possibilitando o cálculo paralelo – isso aumentou significativamente a eficiência de treinamento do Transformer, permitindo que ele lidasse com grandes volumes de dados e impulsionando a IA para a era dos grandes modelos; a segunda é reforçar ainda mais a capacidade de contexto.Após resolver muitos defeitos, o Transformer gradualmente se tornou a solução dominante em NLP( processamento de linguagem natural), dando a sensação de que "sem o Transformer, NLP seria uma longa noite eterna". Até mesmo Ilia abandonou sua própria criação, RNN, e se voltou para o Transformer.Em outras palavras, o Transformer é o ancestral de todos os grandes modelos atuais, transformando a pesquisa teórica em um problema puramente de engenharia.Em 2019, a OpenAI desenvolveu o GPT-2 com base na arquitetura Transformer, surpreendendo a comunidade acadêmica. Em resposta, o Google rapidamente lançou um modelo de IA mais poderoso chamado Meena.Em comparação com o GPT-2, a Meena não apresenta inovações no algoritmo subjacente, apenas aumentou os parâmetros de treinamento em 8,5 vezes e a capacidade computacional em 14 vezes. O autor do artigo Transformer, Sam Chosel, ficou muito impressionado com essa "acumulação violenta" e imediatamente escreveu um memorando intitulado "Meena devora o mundo".Após o surgimento do Transformer, a velocidade de inovação dos algoritmos de base na academia desacelerou significativamente. Elementos de engenharia como engenharia de dados, escala de computação e arquitetura de modelos tornaram-se cada vez mais cruciais nas competições de IA, e empresas de tecnologia com alguma capacidade técnica podem desenvolver grandes modelos por conta própria.Portanto, o cientista da computação Andrew Ng disse durante uma palestra na Universidade de Stanford: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e agora a inteligência artificial generativa. Todas essas são tecnologias gerais, semelhantes a outras tecnologias gerais como eletricidade e internet."A OpenAI continua a ser o padrão para LLM, mas as empresas de análise de semicondutores acreditam que a competitividade do GPT-4 provém de soluções de engenharia - se for open source, qualquer concorrente poderá replicá-lo rapidamente.Este analista prevê que outras grandes empresas de tecnologia poderão em breve desenvolver grandes modelos com desempenho equivalente ao GPT-4.## A Cava Construída em VidroNeste momento, a "batalha das cem modelos" já não é uma metáfora, mas sim uma realidade objetiva.Relatórios relevantes mostram que, até julho deste ano, o número de grandes modelos no país atingiu 130, superando os 114 dos Estados Unidos, conseguindo uma ultrapassagem em curva. Várias lendas e mitos já não são suficientes para as empresas de tecnologia domésticas nomearem seus produtos.Para além da China e dos Estados Unidos, alguns países mais ricos também começaram a implementar o "um país, um modelo": além do Japão e dos Emirados Árabes Unidos, existem também o Bhashini, liderado pelo governo da Índia, e o HyperClova X, desenvolvido por uma empresa de internet da Coreia do Sul.A situação atual parece que voltamos àquela era de exploração da Internet, onde havia bolhas por toda parte e o capital dominava.Como mencionado anteriormente, o Transformer transforma grandes modelos em um problema puramente de engenharia; desde que haja alguém com dinheiro e uma placa gráfica, o resto é deixado para os parâmetros. No entanto, embora a barreira de entrada não seja alta, isso não significa que todos têm a oportunidade de se tornarem gigantes na era da IA.O "Animal Battle" mencionado no início é um caso típico: embora o Falcon tenha uma classificação superior ao Llama, é difícil dizer o quanto isso impactou a Meta.É de conhecimento geral que as empresas tornam suas pesquisas acessíveis ao público, tanto para compartilhar os benefícios da tecnologia com a sociedade quanto para estimular a inteligência coletiva. À medida que professores universitários, instituições de pesquisa e pequenas e médias empresas continuam a usar e melhorar o Llama, a Meta pode aplicar esses resultados em seus próprios produtos.Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva.E já em 2015, quando foi criado o laboratório de IA, a Meta estabeleceu um tom de código aberto; Zuckerberg começou com as redes sociais e entende melhor a importância de "manter boas relações com o público".Por exemplo, em outubro, a Meta organizou o evento "Incentivo a Criadores de IA": desenvolvedores que usam o Llama 2 para resolver problemas sociais como educação e meio ambiente têm a oportunidade de receber um financiamento de 500 mil dólares.Hoje, a série Llama da Meta tornou-se um marco para LLMs de código aberto.Até o início de outubro, 8 dos 10 principais LLMs em um ranking de código aberto são baseados no Llama 2, todos utilizando seu protocolo de código aberto. Somente nessa plataforma, já existem mais de 1500 LLMs que utilizam o protocolo de código aberto do Llama 2.Claro, aumentar o desempenho como o Falcon também não é uma má ideia, mas atualmente a maioria dos LLMs no mercado ainda apresenta uma diferença óbvia em relação ao GPT-4.Por exemplo, não muito tempo atrás, o GPT-4 alcançou a primeira posição no ranking do teste AgentBench com uma pontuação de 4,41. O AgentBench foi desenvolvido em conjunto pela Universidade Tsinghua, pela Universidade Estadual de Ohio e pela Universidade da Califórnia em Berkeley, com o objetivo de avaliar a capacidade de raciocínio e tomada de decisão dos LLM em ambientes de geração aberta multidimensionais. O conteúdo do teste abrange tarefas em 8 ambientes diferentes, incluindo sistemas operacionais, bancos de dados, grafos de conhecimento e jogos de cartas.Os resultados dos testes mostram que o segundo lugar, Claude, obteve apenas 2,77 pontos, com uma diferença ainda considerável. Quanto aos LLMs de código aberto com grande alarde, os resultados dos testes estão geralmente em torno de 1 ponto, ainda menos de 1/4 do GPT-4.É preciso saber que o GPT-4 foi lançado em março deste ano, o que ainda é um resultado após mais de meio ano de corrida de colegas globais. A causa dessa diferença é a equipe de cientistas da OpenAI, com uma "densidade de QI" extremamente alta, juntamente com a experiência acumulada de pesquisa em LLM ao longo do tempo, o que lhes permite estar sempre à frente.Ou seja, a capacidade central do grande modelo não é a dos parâmetros, mas sim a construção do ecossistema ( código aberto ) ou capacidade de inferência puramente ( código fechado ).Com a crescente atividade da comunidade de código aberto, o desempenho de vários LLMs pode convergir, uma vez que todos estão a utilizar arquiteturas de modelo e conjuntos de dados semelhantes.Outro problema mais intuitivo é: além do Midjourney, parece que nenhum outro grande modelo conseguiu ser lucrativo.## Ponto de ancoragem do valorEm agosto deste ano, um artigo intitulado "A OpenAI pode falir até o final de 2024" chamou a atenção. A essência do artigo pode ser resumida em uma frase: a velocidade de queima de dinheiro da OpenAI é muito rápida.O texto menciona que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI aumentaram rapidamente, tendo perdido cerca de 540 milhões de dólares apenas em 2022, tendo que esperar que os investidores paguem a conta.Embora o título do artigo seja alarmante, ele revela a situação de muitos fornecedores de grandes modelos: um sério desequilíbrio entre custos e receitas.Os custos excessivos significam que atualmente só a Nvidia está a ganhar muito dinheiro com inteligência artificial, talvez com a adição da Broadcom.De acordo com estimativas de uma empresa de consultoria, a Nvidia vendeu mais de 300 mil H100 no segundo trimestre deste ano. Este é um chip de IA, com uma eficiência de treinamento de IA extremamente alta, e empresas de tecnologia e instituições de pesquisa em todo o mundo estão a comprá-los. Essas 300 mil H100 empilhadas juntas pesam o equivalente a 4,5 aviões Boeing 747.A performance da Nvidia disparou, com uma receita que aumentou 854% em relação ao ano anterior, chocando Wall Street. Vale a pena mencionar que atualmente o preço do H100 no mercado de segunda mão já alcançou entre 40.000 a 50.000 dólares, enquanto seu custo de material é de apenas cerca de 3.000 dólares.Os altos custos de poder computacional tornaram-se, de certa forma, um obstáculo ao desenvolvimento da indústria. Um capital calculou que as empresas de tecnologia em todo o mundo esperam gastar 200 bilhões de dólares anualmente na construção de infraestrutura para grandes modelos; em comparação, os grandes modelos podem gerar no máximo 75 bilhões de dólares em receita por ano, com um déficit de pelo menos 125 bilhões de dólares.Além disso, à exceção de alguns casos como o Midjourney, a maioria das empresas de software, após incorrerem em enormes custos, ainda não encontrou um modelo de lucro. Especialmente o desempenho dos dois principais líderes do setor – Microsoft e Adobe – não tem sido satisfatório.A ferramenta de geração de código AI GitHub Copilot, desenvolvida pela Microsoft em colaboração com a OpenAI, cobra 10 dólares por mês, mas devido aos custos de infraestrutura, a Microsoft acaba por perder 20 dólares por mês. Usuários frequentes podem fazer com que a Microsoft perca até 80 dólares por mês. Com base nisso, pode-se supor que o Microsoft 365 Copilot, com preço de 30 dólares, pode ter prejuízos ainda maiores.Da mesma forma, a Adobe, que acabou de lançar a ferramenta Firefly AI, rapidamente implementou um sistema de pontos correspondente para evitar que os usuários abusassem do uso, o que levaria a perdas para a empresa. Assim que os usuários excederem os pontos alocados mensalmente, a Adobe reduzirá a velocidade do serviço.É importante saber que a Microsoft e a Adobe já são gigantes de software com cenários de negócios claros e uma grande base de usuários pagantes. Enquanto isso, a maioria dos grandes modelos com uma enorme quantidade de parâmetros ainda tem como principal cenário de aplicação o chat.Não se pode negar que, se não fosse o aparecimento do OpenAI e do ChatGPT, esta revolução da IA provavelmente não teria ocorrido; mas neste momento, o valor trazido pelo treinamento de grandes modelos provavelmente deve ser colocado em dúvida.Além disso, com o aumento da concorrência homogeneizada e o número crescente de modelos de código aberto, o espaço de sobrevivência apenas para fornecedores de grandes modelos pode ser ainda mais reduzido.O sucesso do iPhone 4 não se deve ao processador A4 de 45nm, mas sim ao fato de poder jogar Plantas vs. Zumbis e Angry Birds.

StableGeniusDegen · Accepted Answer

Zé, vários grandes modelos estão disputando bastante.

consensus_whisperer · Answer

Brincar com o ranking.

FallingLeaf · Answer

Quem vai ganhar ainda não é certo.

OnChain_Detective · Answer

a análise de padrões mostra competição entre llama e falcon, apresentando riscos clássicos de segurança... mantenham-se vigilantes família

SnapshotStriker · Answer

Vamos jogar juntos na linha.

PrivateKeyParanoia · Answer

Quem é o chefe do zoológico?

LightningPacketLoss · Answer

O teu grande modelo faz o que quer, eu perco pacotes à minha maneira.