O recente desenvolvimento do setor de IA é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos melhorou significativamente a eficiência em diversos setores, e a Boston Consulting acredita que o GPT aumentou a eficiência do trabalho nos Estados Unidos em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é chamada de novo paradigma de design de software; o design de software do passado era baseado em código preciso, enquanto agora se trata de uma estrutura de grandes modelos mais generalizada incorporada ao software, que pode ter um desempenho melhor e suportar uma gama mais ampla de entradas e saídas de modalidades. A tecnologia de aprendizado profundo realmente trouxe a quarta prosperidade para o setor de IA, e essa onda também se espalhou para o setor de criptomoedas.
Este relatório irá explorar detalhadamente a história de desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, será feita uma análise aprofundada da cadeia de suprimentos upstream e downstream do aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda, bem como seu estado atual e tendências. Depois, discutiremos detalhadamente a relação entre criptomoedas e a indústria de IA, organizando a estrutura da cadeia de suprimentos da IA relacionada a criptomoedas.
A história do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950, com o objetivo de realizar a visão da inteligência artificial. O meio acadêmico e a indústria, sob diferentes contextos de época e disciplinas, desenvolveram várias correntes para a implementação da inteligência artificial.
As tecnologias modernas de inteligência artificial usam principalmente o termo "aprendizado de máquina". A ideia dessa tecnologia é permitir que as máquinas melhorem o desempenho do sistema por meio de iterações repetidas em tarefas baseadas em dados. Os principais passos incluem enviar dados para o algoritmo, treinar o modelo com esses dados, testar e implantar o modelo, e usar o modelo para concluir tarefas de previsão automatizada.
Atualmente, a aprendizagem de máquinas tem três correntes principais, que são o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso, o pensamento e o comportamento humanos.
Atualmente, o conexionismo, representado pelas redes neurais, está em ascensão (, também conhecido como aprendizado profundo ). A principal razão para isso é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e o número de neurônios (, assim como seus parâmetros ), se tornam suficientemente grandes, há uma oportunidade suficiente para ajustar tarefas complexas de forma geral. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios, e, após passar por múltiplos dados, o neurônio alcançará um estado ótimo (, que é o que chamamos de "milagres através do esforço", e é daí que vem a palavra "profundo" – um número suficiente de camadas e neurônios.
Um exemplo simples de entender é que criamos uma função, onde ao inserir X=2, obtemos Y=3; ao inserir X=3, obtemos Y=5. Se quisermos que essa função funcione para todos os X, precisamos continuar adicionando o grau da função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que atenda a essa condição como Y = 2X - 1. No entanto, se tivermos um dado onde X=2 e Y=11, será necessário reconstruir uma função adequada para esses três pontos de dados. Usando uma GPU para força bruta, encontramos que Y = X² - 3X + 5 é bastante apropriada, mas não é necessário que coincida exatamente com os dados; o importante é manter o equilíbrio e fornecer uma saída que seja aproximadamente semelhante. Aqui, X², X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se inserirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
A tecnologia de deep learning baseada em redes neurais também passou por várias iterações e evoluções técnicas, como as redes neurais mais antigas mostradas na imagem acima, redes neurais feedforward, RNN, CNN, GAN, que finalmente evoluíram para os modernos grandes modelos como o GPT, que usam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ) Transformer (, que é utilizado para codificar dados de todos os modos ), como áudio, vídeo, imagens, etc., em valores numéricos correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realizando multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda foi na década de 1960, uma década após a proposta da tecnologia de IA. Esta onda foi causada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Neste período, os sistemas especialistas nasceram, sendo o sistema especialista DENRAL, concluído sob a supervisão da NASA pela Universidade de Stanford, que possui um conhecimento químico muito forte e gera respostas semelhantes às de um especialista em química por meio de inferências a partir de perguntas. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo judeu-americano Judea Pearl( propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks apresentou a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o Deep Blue da IBM venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória é considerada um marco na inteligência artificial, marcando um pico no desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do aprendizado profundo, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de aprendizado profundo, um algoritmo baseado em redes neurais artificiais para a aprendizagem de representação de dados. Após isso, os algoritmos de aprendizado profundo evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram conjuntamente essa terceira onda tecnológica, que também é o auge do conexionismo.
Muitos eventos icônicos também começaram a surgir gradualmente com a exploração e evolução das tecnologias de aprendizado profundo, incluindo:
Em 2011, o Watson da IBM) venceu humanos e conquistou o campeonato no programa de quiz "Jeopardy"(.
Em 2014, Goodfellow propôs a GAN) Rede Generativa Adversarial, Generative Adversarial Network(, que aprende gerando fotos quase indistinguíveis da realidade, através da competição entre duas redes neurais. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos livros introdutórios importantes no campo do aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo causou um enorme impacto tanto na academia quanto na indústria.
Em 2015, a OpenAI foi fundada, com Musk, o presidente da YC, Altman, e o investidor anjo Peter Thiel) anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, enfrentou o campeão mundial de Go e jogador profissional de nível 9, Lee Sedol, em uma batalha entre homem e máquina, vencendo por 4 a 1 no total.
Em 2017, a empresa Hanson Robotics ( de Hong Kong, China, desenvolveu o robô humanoide Sophia, conhecido como o primeiro robô da história a obter cidadania de pleno direito, possuindo uma rica gama de expressões faciais e compreensão da linguagem humana.
Em 2017, a Google, com uma rica reserva de talentos e tecnologia na área da inteligência artificial, publicou o artigo "Attention is all you need", que propôs o algoritmo Transformer, marcando o surgimento de modelos de linguagem em larga escala.
Em 2018, a OpenAI lançou o GPT) Generative Pre-trained Transformer(, construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem na época.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhão de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI, possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior, GPT-2. Este modelo foi treinado com 570 GB de texto e pode atingir desempenho de ponta em várias tarefas de NLP), incluindo resposta a perguntas, tradução e redação de artigos(.
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilhão de parâmetros, sendo 10 vezes mais que o GPT-3.
Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, e em março o ChatGPT atingiu 100 milhões de usuários, tornando-se o aplicativo que mais rapidamente alcançou 100 milhões de usuários na história.
Em 2024, a OpenAI lançará o GPT-4 omni.
Nota: Devido ao grande número de artigos sobre inteligência artificial, muitos estilos e a evolução técnica variada, aqui seguimos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outros estilos e tecnologias ainda estão em rápido desenvolvimento.
![Novato Esclarecimento丨AI x Crypto: Do Zero ao Pico])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
Cadeia de Indústria de Aprendizado Profundo
Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, os grandes modelos geraram uma onda de entusiasmo pela inteligência artificial, com muitos jogadores entrando neste campo. Também descobrimos que a demanda do mercado por dados e poder computacional explodiu, portanto, nesta parte do relatório, exploramos principalmente a cadeia industrial dos algoritmos de aprendizado profundo, como se compõem as partes superior e inferior da indústria de IA dominada por algoritmos de aprendizado profundo, e como é a situação atual dessas partes e suas relações de oferta e demanda, bem como seu desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao treinar grandes modelos de LLMs liderados pelo GPT baseados na tecnologia Transformer ), dividimos o processo em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, um processo chamado de "Tokenização". Após isso, esses valores são chamados de Token. De acordo com uma regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado como um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica utilizada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer ao camada de entrada um número suficiente de pares de dados, semelhante ao exemplo da primeira parte do relatório (X,Y), para encontrar os melhores parâmetros para cada neurônio no modelo, é necessário um grande volume de dados, e este processo também é o mais exigente em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando vários parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente usa-se o mesmo lote de dados para um treinamento adicional a fim de iterar os parâmetros.
Segundo passo, ajuste fino. O ajuste fino envolve fornecer um conjunto de dados menor, mas de qualidade muito alta, para treinar; essa alteração permitirá que a saída do modelo tenha uma qualidade superior, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos desses dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode elevar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um novo modelo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados da saída. Portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Em seguida, usaremos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ( No entanto, às vezes também é necessário que haja participação humana para avaliar a qualidade da saída do modelo ).
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a capacidade de GPU necessária é também a mais alta. Por outro lado, o ajuste fino requer dados de maior qualidade para melhorar os parâmetros, enquanto o aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da sua capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade temos dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, pois a essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros poderão ser iterados, permitindo ajustar mais dados. Esta é a razão pela qual grandes modelos produzem resultados extraordinários e também a razão pela qual são popularmente chamados de grandes modelos. A essência é uma enorme quantidade de neurônios e parâmetros, bem como uma enorme quantidade de dados, e ao mesmo tempo, é necessário um grande poder computacional.
Assim, o desempenho de grandes modelos é principalmente determinado por três aspectos: o número de parâmetros, a quantidade e qualidade dos dados, e a capacidade de computação; estes três fatores influenciam conjuntamente.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
18 Curtidas
Recompensa
18
5
Repostar
Compartilhar
Comentário
0/400
WalletDetective
· 08-16 23:55
Faz isso e fica tudo resolvido.
Ver originalResponder0
CoconutWaterBoy
· 08-16 23:54
Como é que não senti um aumento de 20 na eficiência do trabalho?
Ver originalResponder0
UnluckyMiner
· 08-16 23:45
Não consigo ganhar com a mineração, é muito difícil.
A fusão da IA com ativos de criptografia: como a tecnologia de aprendizagem profunda afeta a indústria de Blockchain
AI x Crypto: Do zero ao pico
Introdução
O recente desenvolvimento do setor de IA é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos melhorou significativamente a eficiência em diversos setores, e a Boston Consulting acredita que o GPT aumentou a eficiência do trabalho nos Estados Unidos em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é chamada de novo paradigma de design de software; o design de software do passado era baseado em código preciso, enquanto agora se trata de uma estrutura de grandes modelos mais generalizada incorporada ao software, que pode ter um desempenho melhor e suportar uma gama mais ampla de entradas e saídas de modalidades. A tecnologia de aprendizado profundo realmente trouxe a quarta prosperidade para o setor de IA, e essa onda também se espalhou para o setor de criptomoedas.
Este relatório irá explorar detalhadamente a história de desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, será feita uma análise aprofundada da cadeia de suprimentos upstream e downstream do aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda, bem como seu estado atual e tendências. Depois, discutiremos detalhadamente a relação entre criptomoedas e a indústria de IA, organizando a estrutura da cadeia de suprimentos da IA relacionada a criptomoedas.
A história do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950, com o objetivo de realizar a visão da inteligência artificial. O meio acadêmico e a indústria, sob diferentes contextos de época e disciplinas, desenvolveram várias correntes para a implementação da inteligência artificial.
As tecnologias modernas de inteligência artificial usam principalmente o termo "aprendizado de máquina". A ideia dessa tecnologia é permitir que as máquinas melhorem o desempenho do sistema por meio de iterações repetidas em tarefas baseadas em dados. Os principais passos incluem enviar dados para o algoritmo, treinar o modelo com esses dados, testar e implantar o modelo, e usar o modelo para concluir tarefas de previsão automatizada.
Atualmente, a aprendizagem de máquinas tem três correntes principais, que são o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso, o pensamento e o comportamento humanos.
Atualmente, o conexionismo, representado pelas redes neurais, está em ascensão (, também conhecido como aprendizado profundo ). A principal razão para isso é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e o número de neurônios (, assim como seus parâmetros ), se tornam suficientemente grandes, há uma oportunidade suficiente para ajustar tarefas complexas de forma geral. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios, e, após passar por múltiplos dados, o neurônio alcançará um estado ótimo (, que é o que chamamos de "milagres através do esforço", e é daí que vem a palavra "profundo" – um número suficiente de camadas e neurônios.
Um exemplo simples de entender é que criamos uma função, onde ao inserir X=2, obtemos Y=3; ao inserir X=3, obtemos Y=5. Se quisermos que essa função funcione para todos os X, precisamos continuar adicionando o grau da função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que atenda a essa condição como Y = 2X - 1. No entanto, se tivermos um dado onde X=2 e Y=11, será necessário reconstruir uma função adequada para esses três pontos de dados. Usando uma GPU para força bruta, encontramos que Y = X² - 3X + 5 é bastante apropriada, mas não é necessário que coincida exatamente com os dados; o importante é manter o equilíbrio e fornecer uma saída que seja aproximadamente semelhante. Aqui, X², X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se inserirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
A tecnologia de deep learning baseada em redes neurais também passou por várias iterações e evoluções técnicas, como as redes neurais mais antigas mostradas na imagem acima, redes neurais feedforward, RNN, CNN, GAN, que finalmente evoluíram para os modernos grandes modelos como o GPT, que usam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ) Transformer (, que é utilizado para codificar dados de todos os modos ), como áudio, vídeo, imagens, etc., em valores numéricos correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realizando multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda foi na década de 1960, uma década após a proposta da tecnologia de IA. Esta onda foi causada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Neste período, os sistemas especialistas nasceram, sendo o sistema especialista DENRAL, concluído sob a supervisão da NASA pela Universidade de Stanford, que possui um conhecimento químico muito forte e gera respostas semelhantes às de um especialista em química por meio de inferências a partir de perguntas. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo judeu-americano Judea Pearl( propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks apresentou a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o Deep Blue da IBM venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória é considerada um marco na inteligência artificial, marcando um pico no desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do aprendizado profundo, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de aprendizado profundo, um algoritmo baseado em redes neurais artificiais para a aprendizagem de representação de dados. Após isso, os algoritmos de aprendizado profundo evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram conjuntamente essa terceira onda tecnológica, que também é o auge do conexionismo.
Muitos eventos icônicos também começaram a surgir gradualmente com a exploração e evolução das tecnologias de aprendizado profundo, incluindo:
Em 2011, o Watson da IBM) venceu humanos e conquistou o campeonato no programa de quiz "Jeopardy"(.
Em 2014, Goodfellow propôs a GAN) Rede Generativa Adversarial, Generative Adversarial Network(, que aprende gerando fotos quase indistinguíveis da realidade, através da competição entre duas redes neurais. Ao mesmo tempo, Goodfellow também escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos livros introdutórios importantes no campo do aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo causou um enorme impacto tanto na academia quanto na indústria.
Em 2015, a OpenAI foi fundada, com Musk, o presidente da YC, Altman, e o investidor anjo Peter Thiel) anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, enfrentou o campeão mundial de Go e jogador profissional de nível 9, Lee Sedol, em uma batalha entre homem e máquina, vencendo por 4 a 1 no total.
Em 2017, a empresa Hanson Robotics ( de Hong Kong, China, desenvolveu o robô humanoide Sophia, conhecido como o primeiro robô da história a obter cidadania de pleno direito, possuindo uma rica gama de expressões faciais e compreensão da linguagem humana.
Em 2017, a Google, com uma rica reserva de talentos e tecnologia na área da inteligência artificial, publicou o artigo "Attention is all you need", que propôs o algoritmo Transformer, marcando o surgimento de modelos de linguagem em larga escala.
Em 2018, a OpenAI lançou o GPT) Generative Pre-trained Transformer(, construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem na época.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhão de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI, possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior, GPT-2. Este modelo foi treinado com 570 GB de texto e pode atingir desempenho de ponta em várias tarefas de NLP), incluindo resposta a perguntas, tradução e redação de artigos(.
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilhão de parâmetros, sendo 10 vezes mais que o GPT-3.
Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, e em março o ChatGPT atingiu 100 milhões de usuários, tornando-se o aplicativo que mais rapidamente alcançou 100 milhões de usuários na história.
Em 2024, a OpenAI lançará o GPT-4 omni.
Nota: Devido ao grande número de artigos sobre inteligência artificial, muitos estilos e a evolução técnica variada, aqui seguimos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outros estilos e tecnologias ainda estão em rápido desenvolvimento.
![Novato Esclarecimento丨AI x Crypto: Do Zero ao Pico])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
Cadeia de Indústria de Aprendizado Profundo
Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, os grandes modelos geraram uma onda de entusiasmo pela inteligência artificial, com muitos jogadores entrando neste campo. Também descobrimos que a demanda do mercado por dados e poder computacional explodiu, portanto, nesta parte do relatório, exploramos principalmente a cadeia industrial dos algoritmos de aprendizado profundo, como se compõem as partes superior e inferior da indústria de IA dominada por algoritmos de aprendizado profundo, e como é a situação atual dessas partes e suas relações de oferta e demanda, bem como seu desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao treinar grandes modelos de LLMs liderados pelo GPT baseados na tecnologia Transformer ), dividimos o processo em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, um processo chamado de "Tokenização". Após isso, esses valores são chamados de Token. De acordo com uma regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado como um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica utilizada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer ao camada de entrada um número suficiente de pares de dados, semelhante ao exemplo da primeira parte do relatório (X,Y), para encontrar os melhores parâmetros para cada neurônio no modelo, é necessário um grande volume de dados, e este processo também é o mais exigente em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando vários parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente usa-se o mesmo lote de dados para um treinamento adicional a fim de iterar os parâmetros.
Segundo passo, ajuste fino. O ajuste fino envolve fornecer um conjunto de dados menor, mas de qualidade muito alta, para treinar; essa alteração permitirá que a saída do modelo tenha uma qualidade superior, pois o pré-treinamento requer uma grande quantidade de dados, mas muitos desses dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode elevar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um novo modelo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados da saída. Portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Em seguida, usaremos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ( No entanto, às vezes também é necessário que haja participação humana para avaliar a qualidade da saída do modelo ).
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a capacidade de GPU necessária é também a mais alta. Por outro lado, o ajuste fino requer dados de maior qualidade para melhorar os parâmetros, enquanto o aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da sua capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade temos dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, pois a essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros poderão ser iterados, permitindo ajustar mais dados. Esta é a razão pela qual grandes modelos produzem resultados extraordinários e também a razão pela qual são popularmente chamados de grandes modelos. A essência é uma enorme quantidade de neurônios e parâmetros, bem como uma enorme quantidade de dados, e ao mesmo tempo, é necessário um grande poder computacional.
Assim, o desempenho de grandes modelos é principalmente determinado por três aspectos: o número de parâmetros, a quantidade e qualidade dos dados, e a capacidade de computação; estes três fatores influenciam conjuntamente.