El desarrollo reciente de la industria de la IA ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias; Boston Consulting estima que GPT ha incrementado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen estos grandes modelos se considera un nuevo paradigma de diseño de software. En el pasado, el diseño de software era código preciso; ahora, se trata de un marco de grandes modelos más generalizados integrado en el software, que puede tener un mejor rendimiento y soportar entradas y salidas de modalidades más amplias. La tecnología de aprendizaje profundo ha traído efectivamente la cuarta prosperidad a la industria de la IA, y esta ola también se ha extendido a la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, las categorías tecnológicas y el impacto de la invención de la tecnología de aprendizaje profundo en la industria. Luego, analizaremos en profundidad la cadena de suministro y demanda de la industria del aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde, así como su estado actual y tendencias. Después, discutiremos en esencia la relación entre las criptomonedas y la industria de la IA, y organizaremos el patrón de la cadena de suministro relacionada con las criptomonedas y la IA.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el ámbito académico y la industria han desarrollado muchas corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinarios.
Las modernas tecnologías de inteligencia artificial utilizan principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas iteran repetidamente en tareas basadas en datos para mejorar el rendimiento del sistema. Los pasos principales son enviar datos al algoritmo, usar estos datos para entrenar el modelo, probar e implementar el modelo, y usar el modelo para completar tareas de predicción automatizadas.
Actualmente, hay tres grandes corrientes en el aprendizaje automático: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humanos.
En la actualidad, el conexionismo representado por redes neuronales domina, también conocido como aprendizaje profundo, la principal razón es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y el número de neuronas se vuelve lo suficientemente grande, hay suficientes oportunidades para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de experimentar con múltiples datos, esa neurona alcanzará un estado óptimo, lo que nosotros llamamos "un gran esfuerzo produce milagros", y esta es la razón del término "profundidad" — un número suficiente de capas y neuronas.
Un ejemplo simple de entender es que se ha construido una función, donde si ingresamos X=2, Y=3; y si X=3, Y=5. Si queremos que esta función responda a todos los X, entonces necesitamos seguir agregando el grado de esta función y sus parámetros. Por ejemplo, en este momento puedo construir una función que satisfaga esta condición como Y = 2X -1. Sin embargo, si hay un dato donde X=2, Y=11, se necesita reconstruir una función adecuada para estos tres puntos de datos. Utilizando GPU para un ataque de fuerza bruta, descubrí que Y = X2 -3X +5 es bastante adecuado, pero no es necesario que coincida completamente con los datos, solo necesita seguir el equilibrio y proporcionar una salida aproximadamente similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si ingresamos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para adaptar los nuevos datos. De esta manera, podemos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones tecnológicas, como las primeras redes neuronales en la imagen anterior, las redes neuronales feedforward, RNN, CNN y GAN, que finalmente evolucionaron a los modernos modelos grandes como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, añadiendo un convertidor ( Transformer ), que se utiliza para codificar todos los modos (, como audio, video, imágenes, etc., en valores numéricos correspondientes para representarlos. Luego, estos se introducen en la red neuronal, de modo que la red neuronal pueda ajustar cualquier tipo de datos, es decir, lograr multimodalidad.
![Nuevos conceptos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de la propuesta de la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología de simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En ese mismo período, nació el sistema experto, que fue completado por la Universidad de Stanford bajo la supervisión de la NASA, el sistema experto DENRAL. Este sistema posee un conocimiento químico muy sólido y deduce respuestas similares a las de un experto en química a través de preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de deducción.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ) propuso las redes bayesianas, que también se conocen como redes de creencias. En ese mismo período, Brooks propuso la robótica basada en comportamientos, marcando el nacimiento del conductismo.
En 1997, Deep Blue de IBM derrotó al campeón de ajedrez Garry Kasparov 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial, marcando el inicio de un segundo auge en el desarrollo de la tecnología de IA.
La tercera ola de tecnología de inteligencia artificial ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion; estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y este también es el apogeo del conexionismo.
Muchos eventos icónicos también han surgido gradualmente acompañados de la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de IBM ( venció a humanos y ganó el campeonato en el programa de preguntas y respuestas "Jeopardy" ).
En 2014, Goodfellow propuso la GAN( Red Generativa Antagónica, Generative Adversarial Network), que aprende a generar fotos tan realistas que son indistinguibles de las verdaderas, a través de un juego de competencia entre dos redes neuronales. Al mismo tiempo, Goodfellow escribió un libro titulado "Deep Learning", conocido como el libro de las flores, que es uno de los libros de entrada más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", el cual generó una gran repercusión en el ámbito académico y en la industria.
En 2015, OpenAI fue fundado, Musk, el presidente de YC Altman, el inversionista ángel Peter Thiel ( y otros anunciaron una inversión conjunta de 1.000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó al campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics )Hanson Robotics( de Hong Kong, China, desarrolló el robot humanoide Sofía, el cual es conocido como el primer robot en la historia en obtener la ciudadanía de pleno derecho, y posee una rica gama de expresiones faciales y habilidades de comprensión del lenguaje humano.
En 2017, Google, que cuenta con una rica reserva de talento y tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, comenzando la aparición de modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó el GPT) Generative Pre-trained Transformer(, construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de su tiempo.
En 2018, el equipo de Google Deepmind lanzó AlphaGo, basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, un modelo que cuenta con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 1750 millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural, como responder preguntas, traducción y redacción de artículos.
En 2021, OpenAI lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, que es 10 veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a los cien millones de usuarios en la historia.
En 2024, OpenAI lanza GPT-4 omni.
Nota: Dado que hay muchos artículos sobre inteligencia artificial, muchas corrientes y la evolución de la tecnología varía, aquí principalmente se seguirá la historia del desarrollo del aprendizaje profundo o del conexionismo; otras corrientes y tecnologías aún se encuentran en un proceso de desarrollo acelerado.
![Nuevos conocimientos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
Cadena industrial de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo utilizando redes neuronales. Encabezados por GPT, los grandes modelos han creado una ola de entusiasmo por la inteligencia artificial, atrayendo a muchos jugadores a esta carrera. También hemos observado una explosión en la demanda de datos y potencia de cálculo en el mercado. Por lo tanto, en esta parte del informe, exploramos la cadena de suministro de los algoritmos de aprendizaje profundo, cómo se componen las partes superior e inferior en la industria de IA dominada por algoritmos de aprendizaje profundo, y cómo es la situación actual de la cadena de suministro, así como la relación de oferta y demanda y su desarrollo futuro.
Primero, necesitamos aclarar que al llevar a cabo el entrenamiento de modelos grandes LLMs, encabezados por GPT, basados en la tecnología Transformer ), se divide en tres pasos.
Antes del entrenamiento, debido a que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se llama "Tokenization". Después, estos valores se denominan Token. Según una regla general, una palabra o carácter en inglés puede considerarse aproximadamente como un Token, mientras que cada carácter chino puede ser considerado aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. A través de dar a la capa de entrada suficientes pares de datos, similares a los ejemplos dados en la primera parte del informe (X,Y), para encontrar los mejores parámetros de cada neurona bajo este modelo, en este momento se necesita una gran cantidad de datos, y este proceso también es el que más potencia de cálculo consume, ya que se deben iterar repetidamente las neuronas probando varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso es el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño pero de muy alta calidad para el entrenamiento; este cambio permitirá que la salida del modelo tenga una calidad superior, ya que el preentrenamiento requiere una gran cantidad de datos, pero muchos de estos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo mediante datos de alta calidad.
El tercer paso, aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa". El propósito de este modelo es muy simple: clasificar los resultados de salida, por lo que implementar este modelo será relativamente sencillo, dado que el escenario de negocio es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, de esta manera podremos usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ( Sin embargo, a veces también es necesario que la intervención humana evalúe la calidad de salida del modelo ).
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento requiere una cantidad muy alta de datos, y la potencia de cálculo de GPU necesaria también es la mayor, mientras que el ajuste fino necesita datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar repetidamente los parámetros a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuanto más parámetros haya, mayor será el límite de su capacidad de generalización. Por ejemplo, en el ejemplo de la función Y = aX + b, en realidad hay dos neuronas, X y X0. Por lo tanto, la variación de los parámetros limita extremadamente los datos que puede ajustar, ya que su esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros y, por lo tanto, ajustar más datos. Esta es la razón por la que los grandes modelos producen resultados sorprendentes, y también es la razón por la que se les llama comúnmente grandes modelos, que en esencia son una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo requieren una enorme capacidad de cálculo.
Por lo tanto, el rendimiento de los grandes modelos está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cálculo. Estos tres factores influyen conjuntamente.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
18 me gusta
Recompensa
18
5
Republicar
Compartir
Comentar
0/400
WalletDetective
· 08-16 23:55
Hazlo y ya está, nos vuelve locos.
Ver originalesResponder0
CoconutWaterBoy
· 08-16 23:54
¿Por qué no he experimentado un aumento del 20% en la eficiencia laboral?
Ver originalesResponder0
UnluckyMiner
· 08-16 23:45
No puedo ganar con la minería, es muy difícil minar.
La fusión de la IA y los Activos Cripto: cómo la tecnología de encriptación profunda afecta a la Cadena de bloques
AI x Crypto: De cero a la cima
Introducción
El desarrollo reciente de la industria de la IA ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias; Boston Consulting estima que GPT ha incrementado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen estos grandes modelos se considera un nuevo paradigma de diseño de software. En el pasado, el diseño de software era código preciso; ahora, se trata de un marco de grandes modelos más generalizados integrado en el software, que puede tener un mejor rendimiento y soportar entradas y salidas de modalidades más amplias. La tecnología de aprendizaje profundo ha traído efectivamente la cuarta prosperidad a la industria de la IA, y esta ola también se ha extendido a la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, las categorías tecnológicas y el impacto de la invención de la tecnología de aprendizaje profundo en la industria. Luego, analizaremos en profundidad la cadena de suministro y demanda de la industria del aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde, así como su estado actual y tendencias. Después, discutiremos en esencia la relación entre las criptomonedas y la industria de la IA, y organizaremos el patrón de la cadena de suministro relacionada con las criptomonedas y la IA.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el ámbito académico y la industria han desarrollado muchas corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinarios.
Las modernas tecnologías de inteligencia artificial utilizan principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas iteran repetidamente en tareas basadas en datos para mejorar el rendimiento del sistema. Los pasos principales son enviar datos al algoritmo, usar estos datos para entrenar el modelo, probar e implementar el modelo, y usar el modelo para completar tareas de predicción automatizadas.
Actualmente, hay tres grandes corrientes en el aprendizaje automático: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humanos.
En la actualidad, el conexionismo representado por redes neuronales domina, también conocido como aprendizaje profundo, la principal razón es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y el número de neuronas se vuelve lo suficientemente grande, hay suficientes oportunidades para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de experimentar con múltiples datos, esa neurona alcanzará un estado óptimo, lo que nosotros llamamos "un gran esfuerzo produce milagros", y esta es la razón del término "profundidad" — un número suficiente de capas y neuronas.
Un ejemplo simple de entender es que se ha construido una función, donde si ingresamos X=2, Y=3; y si X=3, Y=5. Si queremos que esta función responda a todos los X, entonces necesitamos seguir agregando el grado de esta función y sus parámetros. Por ejemplo, en este momento puedo construir una función que satisfaga esta condición como Y = 2X -1. Sin embargo, si hay un dato donde X=2, Y=11, se necesita reconstruir una función adecuada para estos tres puntos de datos. Utilizando GPU para un ataque de fuerza bruta, descubrí que Y = X2 -3X +5 es bastante adecuado, pero no es necesario que coincida completamente con los datos, solo necesita seguir el equilibrio y proporcionar una salida aproximadamente similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si ingresamos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para adaptar los nuevos datos. De esta manera, podemos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones tecnológicas, como las primeras redes neuronales en la imagen anterior, las redes neuronales feedforward, RNN, CNN y GAN, que finalmente evolucionaron a los modernos modelos grandes como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, añadiendo un convertidor ( Transformer ), que se utiliza para codificar todos los modos (, como audio, video, imágenes, etc., en valores numéricos correspondientes para representarlos. Luego, estos se introducen en la red neuronal, de modo que la red neuronal pueda ajustar cualquier tipo de datos, es decir, lograr multimodalidad.
![Nuevos conceptos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de la propuesta de la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología de simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En ese mismo período, nació el sistema experto, que fue completado por la Universidad de Stanford bajo la supervisión de la NASA, el sistema experto DENRAL. Este sistema posee un conocimiento químico muy sólido y deduce respuestas similares a las de un experto en química a través de preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de deducción.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ) propuso las redes bayesianas, que también se conocen como redes de creencias. En ese mismo período, Brooks propuso la robótica basada en comportamientos, marcando el nacimiento del conductismo.
En 1997, Deep Blue de IBM derrotó al campeón de ajedrez Garry Kasparov 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial, marcando el inicio de un segundo auge en el desarrollo de la tecnología de IA.
La tercera ola de tecnología de inteligencia artificial ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion; estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y este también es el apogeo del conexionismo.
Muchos eventos icónicos también han surgido gradualmente acompañados de la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de IBM ( venció a humanos y ganó el campeonato en el programa de preguntas y respuestas "Jeopardy" ).
En 2014, Goodfellow propuso la GAN( Red Generativa Antagónica, Generative Adversarial Network), que aprende a generar fotos tan realistas que son indistinguibles de las verdaderas, a través de un juego de competencia entre dos redes neuronales. Al mismo tiempo, Goodfellow escribió un libro titulado "Deep Learning", conocido como el libro de las flores, que es uno de los libros de entrada más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", el cual generó una gran repercusión en el ámbito académico y en la industria.
En 2015, OpenAI fue fundado, Musk, el presidente de YC Altman, el inversionista ángel Peter Thiel ( y otros anunciaron una inversión conjunta de 1.000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó al campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics )Hanson Robotics( de Hong Kong, China, desarrolló el robot humanoide Sofía, el cual es conocido como el primer robot en la historia en obtener la ciudadanía de pleno derecho, y posee una rica gama de expresiones faciales y habilidades de comprensión del lenguaje humano.
En 2017, Google, que cuenta con una rica reserva de talento y tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, comenzando la aparición de modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó el GPT) Generative Pre-trained Transformer(, construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de su tiempo.
En 2018, el equipo de Google Deepmind lanzó AlphaGo, basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, un modelo que cuenta con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 1750 millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural, como responder preguntas, traducción y redacción de artículos.
En 2021, OpenAI lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, que es 10 veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a los cien millones de usuarios en la historia.
En 2024, OpenAI lanza GPT-4 omni.
Nota: Dado que hay muchos artículos sobre inteligencia artificial, muchas corrientes y la evolución de la tecnología varía, aquí principalmente se seguirá la historia del desarrollo del aprendizaje profundo o del conexionismo; otras corrientes y tecnologías aún se encuentran en un proceso de desarrollo acelerado.
![Nuevos conocimientos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
Cadena industrial de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo utilizando redes neuronales. Encabezados por GPT, los grandes modelos han creado una ola de entusiasmo por la inteligencia artificial, atrayendo a muchos jugadores a esta carrera. También hemos observado una explosión en la demanda de datos y potencia de cálculo en el mercado. Por lo tanto, en esta parte del informe, exploramos la cadena de suministro de los algoritmos de aprendizaje profundo, cómo se componen las partes superior e inferior en la industria de IA dominada por algoritmos de aprendizaje profundo, y cómo es la situación actual de la cadena de suministro, así como la relación de oferta y demanda y su desarrollo futuro.
Primero, necesitamos aclarar que al llevar a cabo el entrenamiento de modelos grandes LLMs, encabezados por GPT, basados en la tecnología Transformer ), se divide en tres pasos.
Antes del entrenamiento, debido a que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se llama "Tokenization". Después, estos valores se denominan Token. Según una regla general, una palabra o carácter en inglés puede considerarse aproximadamente como un Token, mientras que cada carácter chino puede ser considerado aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. A través de dar a la capa de entrada suficientes pares de datos, similares a los ejemplos dados en la primera parte del informe (X,Y), para encontrar los mejores parámetros de cada neurona bajo este modelo, en este momento se necesita una gran cantidad de datos, y este proceso también es el que más potencia de cálculo consume, ya que se deben iterar repetidamente las neuronas probando varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso es el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño pero de muy alta calidad para el entrenamiento; este cambio permitirá que la salida del modelo tenga una calidad superior, ya que el preentrenamiento requiere una gran cantidad de datos, pero muchos de estos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo mediante datos de alta calidad.
El tercer paso, aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa". El propósito de este modelo es muy simple: clasificar los resultados de salida, por lo que implementar este modelo será relativamente sencillo, dado que el escenario de negocio es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, de esta manera podremos usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ( Sin embargo, a veces también es necesario que la intervención humana evalúe la calidad de salida del modelo ).
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento requiere una cantidad muy alta de datos, y la potencia de cálculo de GPU necesaria también es la mayor, mientras que el ajuste fino necesita datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar repetidamente los parámetros a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuanto más parámetros haya, mayor será el límite de su capacidad de generalización. Por ejemplo, en el ejemplo de la función Y = aX + b, en realidad hay dos neuronas, X y X0. Por lo tanto, la variación de los parámetros limita extremadamente los datos que puede ajustar, ya que su esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros y, por lo tanto, ajustar más datos. Esta es la razón por la que los grandes modelos producen resultados sorprendentes, y también es la razón por la que se les llama comúnmente grandes modelos, que en esencia son una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo requieren una enorme capacidad de cálculo.
Por lo tanto, el rendimiento de los grandes modelos está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cálculo. Estos tres factores influyen conjuntamente.