Recentemente, o desenvolvimento da indústria de IA tem sido visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em vários setores, estimando-se que o GPT tenha melhorado a eficiência do trabalho nos EUA em cerca de 20%. A capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software, onde o design de código preciso do passado se transforma em uma estrutura de grandes modelos mais generalizada incorporada no software, permitindo que o software tenha um desempenho melhor e suporte uma gama mais ampla de entradas e saídas de modalidades. A tecnologia de aprendizado profundo realmente trouxe uma quarta prosperidade para a indústria de IA, e essa onda também afetou a indústria de criptomoedas.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, as categorias tecnológicas, bem como o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, será feita uma análise aprofundada da cadeia de suprimentos e demanda da indústria em aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados, dispositivos de borda, e seu estado atual e tendências. Depois, será discutida essencialmente a relação entre a indústria de Crypto e a de IA, organizando o panorama da cadeia de suprimentos de IA relacionada ao Crypto.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 50 do século XX. Para realizar a visão da inteligência artificial, o mundo acadêmico e a indústria desenvolveram diversas correntes de pensamento sob diferentes contextos disciplinares ao longo das várias épocas.
A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizagem de máquina". O conceito por trás dessa tecnologia é permitir que as máquinas melhorem o desempenho do sistema através da iteração repetida em tarefas com base em dados. Os principais passos incluem enviar dados para um algoritmo, treinar um modelo com esses dados, testar e implementar o modelo, e usar o modelo para realizar tarefas de previsão automatizada.
Atualmente, a aprendizagem de máquinas tem três principais correntes: o conexionismo, o simbolismo e o behaviorismo, que imitam, respectivamente, o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, está em ascensão ( também conhecido como aprendizado profundo ), a principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e neurônios ( parâmetros ) é suficientemente grande, há uma oportunidade suficiente para ajustar tarefas complexas e gerais. Através da entrada de dados, os parâmetros dos neurônios podem ser continuamente ajustados e, após várias iterações de dados, o neurônio alcançará seu estado ótimo ( parâmetros ), que é a origem da palavra "profundidade" - um número suficiente de camadas e neurônios.
A compreensão simples é que foi construída uma função, na qual quando inserimos X=2, temos Y=3; quando X=3, temos Y=5. Se quisermos que essa função funcione para todos os X, precisamos continuar adicionando o grau da função e seus parâmetros. Por exemplo, uma função que atende a essa condição pode ser Y = 2X - 1. No entanto, se houver um dado em que X=2 e Y=11, será necessário reconstruir uma função adequada para esses três pontos de dados. Usando GPU para força bruta, descobrimos que Y = X² - 3X + 5 é bastante apropriado, mas não é necessário que coincida exatamente com os dados, apenas precisa manter o equilíbrio e ter uma saída aproximadamente semelhante. Aqui, X², X e X₀ representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se inserirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
A tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções, começando com as redes neurais iniciais, redes neurais feedforward, RNN, CNN, GAN, até evoluir para os modernos modelos grandes como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que serve para codificar dados de todas as modalidades (, como áudio, vídeo, imagens, etc., em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, implementando multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, uma década após a proposta da tecnologia de IA. Esta onda foi causada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural geral e de diálogo homem-máquina. Nesse mesmo período, os sistemas especialistas nasceram, sendo o sistema especialista DENRAL, concluído sob a supervisão da NASA pela Universidade de Stanford, um exemplo. Este sistema possui um conhecimento químico muito forte e gera respostas semelhantes às de especialistas em química, inferindo através de perguntas. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl) apresentou as redes Bayesianas, que também são chamadas de redes de crença. Na mesma época, Brooks propôs a robótica baseada em comportamento, marcando o surgimento do behaviorismo.
Em 1997, o IBM Deep Blue venceu o campeão de xadrez Kasparov por 3,5 a 2,5, uma vitória que foi vista como um marco para a inteligência artificial, marcando o auge do segundo desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três grandes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de deep learning, um algoritmo baseado em redes neurais artificiais para a aprendizagem de representação de dados. Desde então, os algoritmos de deep learning evoluíram gradualmente, de RNN, GAN a Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram essa terceira onda tecnológica, que também é o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( da IBM venceu humanos e conquistou o campeonato no programa de perguntas e respostas "Jeopardy)".
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial, Generative Adversarial Network), que aprende gerando fotos realistas através da competição entre duas redes neurais. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos livros introdutórios mais importantes na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo imediatamente causou um grande impacto no meio acadêmico e na indústria.
Em 2015, a OpenAI foi criada, Musk, o presidente da YC Altman, e o investidor anjo Peter Thiel( anunciaram um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, enfrentou o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, e venceu com um placar total de 4 a 1.
Em 2017, a empresa de tecnologia Hanson Robotics ), de Hong Kong, China, desenvolveu o robô humanoide Sofia, que é conhecido como o primeiro robô na história a obter cidadania de pleno direito, possuindo uma rica gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, a Google, que possui uma rica reserva de talentos e tecnologia no campo da inteligência artificial, publicou o artigo "Attention is all you need" propondo o algoritmo Transformer, e começaram a surgir modelos de linguagem em grande escala.
Em 2018, a OpenAI lançou o GPT(Generative Pre-trained Transformer), um modelo de linguagem baseado no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco de progresso na área de inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI, com 175 bilhões de parâmetros, é 100 vezes maior que a versão anterior, GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de NLP(, como responder perguntas, traduzir e escrever artigos).
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, e em março o ChatGPT alcançou cem milhões de usuários, tornando-se o aplicativo que atingiu cem milhões de usuários mais rapidamente na história.
Em 2024, a OpenAI lançará o GPT-4 omni.
Cadeia de Indústria de Aprendizado Profundo
Os grandes modelos de linguagem atuais utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, esses grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com um grande número de jogadores entrando neste campo. Também percebemos uma explosão na demanda do mercado por dados e poder computacional. Portanto, nesta parte do relatório, exploramos a cadeia de suprimentos dos algoritmos de aprendizado profundo, como os setores upstream e downstream são compostos na indústria de IA dominada por algoritmos de aprendizado profundo, e qual é a situação atual e a relação de oferta e demanda, assim como o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT, baseados na tecnologia Transformer, são divididos em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization", e esses valores são chamados de Token. Sob uma regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado como um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica utilizada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer ao camada de entrada um número suficiente de pares de dados, semelhante ao exemplo apresentado na primeira parte do relatório (X,Y), para encontrar os melhores parâmetros para cada neurônio sob este modelo, é necessário um grande volume de dados, e esse processo também é o mais intensivo em termos de computação, pois requer a iteração repetida dos neurônios para experimentar vários parâmetros. Após o treinamento de um lote de pares de dados, geralmente é utilizado o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.
Passo dois, ajuste fino. O ajuste fino consiste em fornecer um conjunto de dados menor, mas de qualidade muito alta, para treinar, essa alteração fará com que a saída do modelo tenha uma qualidade superior, uma vez que o pré-treinamento exige uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. A etapa de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo, o aprendizado por reforço. Primeiro, será criado um modelo completamente novo, que chamamos de "modelo de recompensa", e o objetivo desse modelo é muito simples: classificar os resultados de saída. Portanto, a implementação desse modelo será relativamente simples, uma vez que o cenário de negócios é bastante vertical. Depois, usaremos esse modelo para determinar se a saída do nosso modelo grande é de alta qualidade, assim, podemos utilizar um modelo de recompensa para iterar automaticamente os parâmetros do modelo grande. ( No entanto, às vezes também é necessário a participação humana para avaliar a qualidade da saída do modelo ).
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a capacidade de GPU necessária é também a mais alta, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar repetidamente os parâmetros por meio de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros, maior será o teto de generalização. Por exemplo, no caso da função Y = aX + b, na verdade temos dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, pois sua essência ainda é uma linha reta. Se houver mais neurônios, será possível iterar mais parâmetros, permitindo ajustar mais dados. Esta é a razão pela qual grandes modelos produzem milagres, e também a razão pela qual se chamam popularmente de grandes modelos; sua essência é uma quantidade massiva de neurônios e parâmetros, juntamente com uma quantidade enorme de dados, exigindo também um poder computacional massivo.
Portanto, o desempenho de grandes modelos é determinado principalmente por três aspectos: o número de parâmetros, a quantidade e qualidade dos dados, e a capacidade de computação. Esses três fatores afetam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n( calculada em termos de número de Tokens), então podemos calcular a quantidade necessária de computação através de uma regra de experiência geral, permitindo-nos estimar a capacidade de computação que precisamos comprar e o tempo de treinamento.
A capacidade de cálculo geralmente é medida em Flops, que representa uma operação de ponto flutuante. A operação de ponto flutuante é uma denominação geral para adição, subtração, multiplicação e divisão de números não inteiros, como 2.5 + 3.557. Ponto flutuante representa a capacidade de incluir casas decimais, enquanto FP16 representa a precisão que suporta casas decimais, e FP32 é uma precisão mais comum. De acordo com a regra prática baseada na experiência,
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
21 Curtidas
Recompensa
21
4
Compartilhar
Comentário
0/400
BearMarketSunriser
· 15h atrás
Dito de forma simples, quem negocia criptomoedas está à espera que a IA os impulsione.
Ver originalResponder0
FloorSweeper
· 07-25 20:05
pssh... típico mãos de papel a entrar em fomo na hype da ia rn... já vi este ciclo antes
Ver originalResponder0
MindsetExpander
· 07-25 13:44
Ah, o código foi todo modificado pelo grande modelo?
Ver originalResponder0
CryptoNomics
· 07-25 13:43
a sua afirmação de 20% de eficiência carece de rigor estatístico... faça primeiro uma análise de regressão adequada, smh
Integração de IA e encriptação: uma análise completa da evolução e da cadeia industrial
AI x Crypto: Do zero ao auge
Introdução
Recentemente, o desenvolvimento da indústria de IA tem sido visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em vários setores, estimando-se que o GPT tenha melhorado a eficiência do trabalho nos EUA em cerca de 20%. A capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software, onde o design de código preciso do passado se transforma em uma estrutura de grandes modelos mais generalizada incorporada no software, permitindo que o software tenha um desempenho melhor e suporte uma gama mais ampla de entradas e saídas de modalidades. A tecnologia de aprendizado profundo realmente trouxe uma quarta prosperidade para a indústria de IA, e essa onda também afetou a indústria de criptomoedas.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, as categorias tecnológicas, bem como o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, será feita uma análise aprofundada da cadeia de suprimentos e demanda da indústria em aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados, dispositivos de borda, e seu estado atual e tendências. Depois, será discutida essencialmente a relação entre a indústria de Crypto e a de IA, organizando o panorama da cadeia de suprimentos de IA relacionada ao Crypto.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 50 do século XX. Para realizar a visão da inteligência artificial, o mundo acadêmico e a indústria desenvolveram diversas correntes de pensamento sob diferentes contextos disciplinares ao longo das várias épocas.
A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizagem de máquina". O conceito por trás dessa tecnologia é permitir que as máquinas melhorem o desempenho do sistema através da iteração repetida em tarefas com base em dados. Os principais passos incluem enviar dados para um algoritmo, treinar um modelo com esses dados, testar e implementar o modelo, e usar o modelo para realizar tarefas de previsão automatizada.
Atualmente, a aprendizagem de máquinas tem três principais correntes: o conexionismo, o simbolismo e o behaviorismo, que imitam, respectivamente, o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, está em ascensão ( também conhecido como aprendizado profundo ), a principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e neurônios ( parâmetros ) é suficientemente grande, há uma oportunidade suficiente para ajustar tarefas complexas e gerais. Através da entrada de dados, os parâmetros dos neurônios podem ser continuamente ajustados e, após várias iterações de dados, o neurônio alcançará seu estado ótimo ( parâmetros ), que é a origem da palavra "profundidade" - um número suficiente de camadas e neurônios.
A compreensão simples é que foi construída uma função, na qual quando inserimos X=2, temos Y=3; quando X=3, temos Y=5. Se quisermos que essa função funcione para todos os X, precisamos continuar adicionando o grau da função e seus parâmetros. Por exemplo, uma função que atende a essa condição pode ser Y = 2X - 1. No entanto, se houver um dado em que X=2 e Y=11, será necessário reconstruir uma função adequada para esses três pontos de dados. Usando GPU para força bruta, descobrimos que Y = X² - 3X + 5 é bastante apropriado, mas não é necessário que coincida exatamente com os dados, apenas precisa manter o equilíbrio e ter uma saída aproximadamente semelhante. Aqui, X², X e X₀ representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se inserirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
A tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções, começando com as redes neurais iniciais, redes neurais feedforward, RNN, CNN, GAN, até evoluir para os modernos modelos grandes como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que serve para codificar dados de todas as modalidades (, como áudio, vídeo, imagens, etc., em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, implementando multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, uma década após a proposta da tecnologia de IA. Esta onda foi causada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural geral e de diálogo homem-máquina. Nesse mesmo período, os sistemas especialistas nasceram, sendo o sistema especialista DENRAL, concluído sob a supervisão da NASA pela Universidade de Stanford, um exemplo. Este sistema possui um conhecimento químico muito forte e gera respostas semelhantes às de especialistas em química, inferindo através de perguntas. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl) apresentou as redes Bayesianas, que também são chamadas de redes de crença. Na mesma época, Brooks propôs a robótica baseada em comportamento, marcando o surgimento do behaviorismo.
Em 1997, o IBM Deep Blue venceu o campeão de xadrez Kasparov por 3,5 a 2,5, uma vitória que foi vista como um marco para a inteligência artificial, marcando o auge do segundo desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três grandes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de deep learning, um algoritmo baseado em redes neurais artificiais para a aprendizagem de representação de dados. Desde então, os algoritmos de deep learning evoluíram gradualmente, de RNN, GAN a Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram essa terceira onda tecnológica, que também é o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( da IBM venceu humanos e conquistou o campeonato no programa de perguntas e respostas "Jeopardy)".
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial, Generative Adversarial Network), que aprende gerando fotos realistas através da competição entre duas redes neurais. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos livros introdutórios mais importantes na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo imediatamente causou um grande impacto no meio acadêmico e na indústria.
Em 2015, a OpenAI foi criada, Musk, o presidente da YC Altman, e o investidor anjo Peter Thiel( anunciaram um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, enfrentou o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, e venceu com um placar total de 4 a 1.
Em 2017, a empresa de tecnologia Hanson Robotics ), de Hong Kong, China, desenvolveu o robô humanoide Sofia, que é conhecido como o primeiro robô na história a obter cidadania de pleno direito, possuindo uma rica gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, a Google, que possui uma rica reserva de talentos e tecnologia no campo da inteligência artificial, publicou o artigo "Attention is all you need" propondo o algoritmo Transformer, e começaram a surgir modelos de linguagem em grande escala.
Em 2018, a OpenAI lançou o GPT(Generative Pre-trained Transformer), um modelo de linguagem baseado no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco de progresso na área de inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI, com 175 bilhões de parâmetros, é 100 vezes maior que a versão anterior, GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de NLP(, como responder perguntas, traduzir e escrever artigos).
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, e em março o ChatGPT alcançou cem milhões de usuários, tornando-se o aplicativo que atingiu cem milhões de usuários mais rapidamente na história.
Em 2024, a OpenAI lançará o GPT-4 omni.
Cadeia de Indústria de Aprendizado Profundo
Os grandes modelos de linguagem atuais utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, esses grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com um grande número de jogadores entrando neste campo. Também percebemos uma explosão na demanda do mercado por dados e poder computacional. Portanto, nesta parte do relatório, exploramos a cadeia de suprimentos dos algoritmos de aprendizado profundo, como os setores upstream e downstream são compostos na indústria de IA dominada por algoritmos de aprendizado profundo, e qual é a situação atual e a relação de oferta e demanda, assim como o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT, baseados na tecnologia Transformer, são divididos em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization", e esses valores são chamados de Token. Sob uma regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado como um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica utilizada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer ao camada de entrada um número suficiente de pares de dados, semelhante ao exemplo apresentado na primeira parte do relatório (X,Y), para encontrar os melhores parâmetros para cada neurônio sob este modelo, é necessário um grande volume de dados, e esse processo também é o mais intensivo em termos de computação, pois requer a iteração repetida dos neurônios para experimentar vários parâmetros. Após o treinamento de um lote de pares de dados, geralmente é utilizado o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.
Passo dois, ajuste fino. O ajuste fino consiste em fornecer um conjunto de dados menor, mas de qualidade muito alta, para treinar, essa alteração fará com que a saída do modelo tenha uma qualidade superior, uma vez que o pré-treinamento exige uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. A etapa de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo, o aprendizado por reforço. Primeiro, será criado um modelo completamente novo, que chamamos de "modelo de recompensa", e o objetivo desse modelo é muito simples: classificar os resultados de saída. Portanto, a implementação desse modelo será relativamente simples, uma vez que o cenário de negócios é bastante vertical. Depois, usaremos esse modelo para determinar se a saída do nosso modelo grande é de alta qualidade, assim, podemos utilizar um modelo de recompensa para iterar automaticamente os parâmetros do modelo grande. ( No entanto, às vezes também é necessário a participação humana para avaliar a qualidade da saída do modelo ).
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a capacidade de GPU necessária é também a mais alta, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar repetidamente os parâmetros por meio de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros, maior será o teto de generalização. Por exemplo, no caso da função Y = aX + b, na verdade temos dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, pois sua essência ainda é uma linha reta. Se houver mais neurônios, será possível iterar mais parâmetros, permitindo ajustar mais dados. Esta é a razão pela qual grandes modelos produzem milagres, e também a razão pela qual se chamam popularmente de grandes modelos; sua essência é uma quantidade massiva de neurônios e parâmetros, juntamente com uma quantidade enorme de dados, exigindo também um poder computacional massivo.
Portanto, o desempenho de grandes modelos é determinado principalmente por três aspectos: o número de parâmetros, a quantidade e qualidade dos dados, e a capacidade de computação. Esses três fatores afetam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n( calculada em termos de número de Tokens), então podemos calcular a quantidade necessária de computação através de uma regra de experiência geral, permitindo-nos estimar a capacidade de computação que precisamos comprar e o tempo de treinamento.
A capacidade de cálculo geralmente é medida em Flops, que representa uma operação de ponto flutuante. A operação de ponto flutuante é uma denominação geral para adição, subtração, multiplicação e divisão de números não inteiros, como 2.5 + 3.557. Ponto flutuante representa a capacidade de incluir casas decimais, enquanto FP16 representa a precisão que suporta casas decimais, e FP32 é uma precisão mais comum. De acordo com a regra prática baseada na experiência,