El desarrollo reciente de la industria de la inteligencia artificial es visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos de lenguaje ha mejorado significativamente la eficiencia en diversas industrias, estimándose que ha aumentado aproximadamente un 20% la eficiencia laboral en Estados Unidos. Al mismo tiempo, la capacidad de generalización de los grandes modelos se considera un nuevo paradigma de diseño de software; en comparación con el diseño de código preciso del pasado, el software de ahora más bien integra marcos de grandes modelos generalizados, apoyando así una gama más amplia de entradas y salidas de modalidades. La tecnología de aprendizaje profundo ha traído de hecho una nueva ola de prosperidad a la industria de la IA, y esta ola también ha impactado en la industria de las criptomonedas.
En este informe, exploraremos en detalle la evolución de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en la industria. Luego, analizaremos en profundidad el estado actual y las tendencias del desarrollo de la cadena de suministro en el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos perimetrales. Finalmente, exploraremos esencialmente la relación entre la industria de Crypto y la de IA, organizando el panorama de la cadena de suministro relacionada con IA en Crypto.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, la academia y la industria han desarrollado varias corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinares.
Las tecnologías modernas de inteligencia artificial utilizan principalmente el término "aprendizaje automático", cuya filosofía es permitir que las máquinas mejoren el rendimiento del sistema a través de iteraciones repetidas basadas en datos en tareas específicas. Los pasos principales son introducir datos en un algoritmo, entrenar un modelo con esos datos, probar e implementar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres corrientes principales: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo representado por redes neuronales ocupa una posición dominante ( también conocido como aprendizaje profundo ), la razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y la cantidad de neuronas ( parámetros ) son suficientes, hay suficientes oportunidades para ajustar tareas complejas y generales. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de múltiples datos, esa neurona alcanzará su estado óptimo ( parámetros ), de ahí proviene el término "profundo" - un número suficiente de capas y neuronas.
Por ejemplo, se puede entender simplemente como la construcción de una función, donde al introducir X=2, Y=3; al introducir X=3, Y=5. Si se desea que esta función se aplique a todos los X, entonces es necesario seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, se puede construir una función que cumpla con esta condición como Y = 2X -1, pero si hay un dato donde X=2, Y=11, será necesario reconstruir una función que se ajuste a estos tres puntos de datos. Al usar una GPU para un ataque de fuerza bruta, se determina que Y = X2 -3X +5 es bastante apropiado, pero no es necesario que coincida completamente con los datos, solo debe respetar el equilibrio y proporcionar una salida similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3, 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para ajustar los nuevos datos. De esta manera, podemos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, como las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN, GAN, que finalmente evolucionaron hacia los modernos modelos grandes como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que añade un convertidor ( Transformer ), para codificar todos los datos de modalidades ( como audio, video, imágenes, etc., en valores numéricos correspondientes para su representación. Luego, estos se introducen en la red neuronal, de modo que la red neuronal pueda ajustar cualquier tipo de datos, es decir, lograr multimodalidad.
El desarrollo de la IA ha pasado por tres oleadas tecnológicas. La primera oleada fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta oleada fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En ese mismo período, surgieron los sistemas expertos, siendo el sistema experto DENRAL, completado bajo la supervisión de la NASA por una universidad estadounidense. Este sistema posee un conocimiento químico muy sólido y puede inferir respuestas similares a las de un experto en química a través de preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl propuso las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, un programa de ajedrez de una empresa de tecnología venció al campeón de ajedrez Kasparov por 3.5 a 2.5, y esta victoria se consideró un hito para la inteligencia artificial, marcando el comienzo de un segundo auge en el desarrollo de la tecnología de IA.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y también fue el apogeo del conexionismo.
Muchos eventos emblemáticos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, un sistema de inteligencia artificial ganó al ser humano y se coronó campeón en el programa de preguntas "Dangerous Edge".
En 2014, Goodfellow propuso la red generativa antagónica GAN), que aprende mediante un juego entre dos redes neuronales, capaz de generar fotos que son indistinguibles de las reales. Al mismo tiempo, Goodfellow escribió un libro titulado "Deep Learning", que se convirtió en uno de los libros de referencia más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron el algoritmo de aprendizaje profundo, lo que provocó una gran repercusión en el ámbito académico y en la industria.
En 2015, OpenAI fue fundada, recibiendo una inversión conjunta de 1.000 millones de dólares de varios inversores conocidos.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó al campeón mundial de Go, el profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, un robot humanoide llamado Sophia, desarrollado por una empresa de tecnología, obtuvo la ciudadanía, con una rica gama de expresiones faciales y capacidad de comprensión del lenguaje humano.
En 2017, Google publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, comenzando así la aparición de modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó GPT, un modelo de lenguaje construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de la época.
En 2018, DeepMind lanzó AlphaFold, basado en aprendizaje profundo, que puede predecir la estructura de las proteínas, considerado un gran avance en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, que cuenta con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de PLN.
En 2021, OpenAI lanzó GPT-4, que cuenta con 1.76 billones de parámetros, lo que equivale a 10 veces GPT-3.
La aplicación ChatGPT basada en el modelo GPT-4 se lanzó en enero de 2023, alcanzando cien millones de usuarios en marzo, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
Cadena de la industria de aprendizaje profundo
Los modelos de lenguaje actuales utilizan métodos de aprendizaje profundo basados en redes neuronales. Encabezados por GPT, los grandes modelos han generado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado una explosión en la demanda del mercado por datos y potencia de cálculo. Por lo tanto, en esta parte del informe, exploramos principalmente la cadena de producción de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen sus cadenas de suministro y demanda? ¿Cuál es el estado actual de estas cadenas y su relación de oferta y demanda, así como su desarrollo futuro?
Primero necesitamos aclarar que, al realizar el entrenamiento de grandes modelos LLMs( liderados por GPT basados en la tecnología Transformer), se divide en tres pasos.
Antes del entrenamiento, debido a que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se denomina "Tokenization". Después, estos valores se conocen como Tokens. Según la regla general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, como el ejemplo mencionado en la primera parte del informe (X,Y), se buscan los mejores parámetros para cada neurona del modelo. En este momento, se necesita una gran cantidad de datos, y este proceso también es el más costoso en términos de computación, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento con el fin de iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño pero de muy alta calidad para el entrenamiento, este cambio permitirá que la salida del modelo tenga una mayor calidad, ya que el preentrenamiento requiere grandes cantidades de datos, pero muchos de estos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso es el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa". El propósito de este modelo es muy simple: clasificar los resultados de salida. Por lo tanto, implementar este modelo será relativamente sencillo, ya que el escenario de negocio es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, de modo que podamos usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ( Sin embargo, a veces también es necesario que la intervención humana participe para evaluar la calidad de la salida del modelo ).
En resumen, durante el proceso de entrenamiento de grandes modelos, el preentrenamiento tiene una demanda muy alta de la cantidad de datos, y la potencia de cálculo de GPU necesaria es también la mayor, mientras que el ajuste fino requiere datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuanto más parámetros haya, mayor será el límite de generalización, por ejemplo, en el caso que usamos como ejemplo de función Y = aX + b, en realidad hay dos neuronas X y X0, por lo tanto, cómo varían los parámetros, los datos que pueden ajustarse son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, se podrán iterar más parámetros, lo que permitirá ajustar más datos, esta es la razón por la que los grandes modelos logran milagros, y también es la razón por la que se les llama comúnmente grandes modelos, su esencia es una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo, se necesita una gran cantidad de poder de cálculo.
Por lo tanto, el rendimiento de los grandes modelos se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización de los grandes modelos. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n( calculada en función del número de tokens), entonces podemos calcular la cantidad de cálculo requerida a través de una regla empírica general, lo que nos permitirá estimar la potencia de cálculo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante; las operaciones de punto flotante son el término general para la suma, resta, multiplicación y división de números no enteros, como 2.5 + 3.557. El punto flotante indica que puede haber un punto decimal, y FP16 representa la precisión que admite decimales, mientras que FP32 es una precisión más común. Según las reglas empíricas basadas en la práctica, el preentrenamiento (Pre-traning) una vez ( generalmente entrenará múltiples veces ) un gran modelo, lo que requiere aproximadamente 6np Flops, donde 6 se llama constante de la industria. Y la inferencia (Inference, es el proceso en el que ingresamos un dato y esperamos la salida del gran modelo ), dividido en dos partes: entrada de n tokens y salida de n tokens, por lo que se necesitan aproximadamente 2np Flops en total.
En los primeros días, se utilizaban chips de CPU para el entrenamiento y proporcionar soporte de cálculo, pero luego se comenzó a utilizar gradualmente GPU como reemplazo, como los chips A100 y H100 de Nvidia. Porque la CPU existe como un cálculo general, pero la GPU puede ser utilizada como específica.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
8 me gusta
Recompensa
8
4
Republicar
Compartir
Comentar
0/400
TokenDustCollector
· 08-13 22:14
Otra ola de tontos que tomar a la gente por tonta ha llegado, ¿verdad?
Ver originalesResponder0
ThesisInvestor
· 08-13 22:09
No hables tonterías sobre la IA, después de la caída lo sabremos.
Ver originalesResponder0
GasFeeBarbecue
· 08-13 22:08
subir el precio no es mejor que subir el coeficiente intelectual
Ver originalesResponder0
AirdropHunter007
· 08-13 22:01
Otra vez están haciendo alarde y creando conceptos.
IA y Activos Cripto: la nueva estructura de la cadena industrial bajo la innovación tecnológica
IA x Cripto: De cero a la cima
Introducción
El desarrollo reciente de la industria de la inteligencia artificial es visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos de lenguaje ha mejorado significativamente la eficiencia en diversas industrias, estimándose que ha aumentado aproximadamente un 20% la eficiencia laboral en Estados Unidos. Al mismo tiempo, la capacidad de generalización de los grandes modelos se considera un nuevo paradigma de diseño de software; en comparación con el diseño de código preciso del pasado, el software de ahora más bien integra marcos de grandes modelos generalizados, apoyando así una gama más amplia de entradas y salidas de modalidades. La tecnología de aprendizaje profundo ha traído de hecho una nueva ola de prosperidad a la industria de la IA, y esta ola también ha impactado en la industria de las criptomonedas.
En este informe, exploraremos en detalle la evolución de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en la industria. Luego, analizaremos en profundidad el estado actual y las tendencias del desarrollo de la cadena de suministro en el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos perimetrales. Finalmente, exploraremos esencialmente la relación entre la industria de Crypto y la de IA, organizando el panorama de la cadena de suministro relacionada con IA en Crypto.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, la academia y la industria han desarrollado varias corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinares.
Las tecnologías modernas de inteligencia artificial utilizan principalmente el término "aprendizaje automático", cuya filosofía es permitir que las máquinas mejoren el rendimiento del sistema a través de iteraciones repetidas basadas en datos en tareas específicas. Los pasos principales son introducir datos en un algoritmo, entrenar un modelo con esos datos, probar e implementar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres corrientes principales: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo representado por redes neuronales ocupa una posición dominante ( también conocido como aprendizaje profundo ), la razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y la cantidad de neuronas ( parámetros ) son suficientes, hay suficientes oportunidades para ajustar tareas complejas y generales. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de múltiples datos, esa neurona alcanzará su estado óptimo ( parámetros ), de ahí proviene el término "profundo" - un número suficiente de capas y neuronas.
Por ejemplo, se puede entender simplemente como la construcción de una función, donde al introducir X=2, Y=3; al introducir X=3, Y=5. Si se desea que esta función se aplique a todos los X, entonces es necesario seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, se puede construir una función que cumpla con esta condición como Y = 2X -1, pero si hay un dato donde X=2, Y=11, será necesario reconstruir una función que se ajuste a estos tres puntos de datos. Al usar una GPU para un ataque de fuerza bruta, se determina que Y = X2 -3X +5 es bastante apropiado, pero no es necesario que coincida completamente con los datos, solo debe respetar el equilibrio y proporcionar una salida similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3, 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para ajustar los nuevos datos. De esta manera, podemos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, como las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN, GAN, que finalmente evolucionaron hacia los modernos modelos grandes como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que añade un convertidor ( Transformer ), para codificar todos los datos de modalidades ( como audio, video, imágenes, etc., en valores numéricos correspondientes para su representación. Luego, estos se introducen en la red neuronal, de modo que la red neuronal pueda ajustar cualquier tipo de datos, es decir, lograr multimodalidad.
El desarrollo de la IA ha pasado por tres oleadas tecnológicas. La primera oleada fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta oleada fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En ese mismo período, surgieron los sistemas expertos, siendo el sistema experto DENRAL, completado bajo la supervisión de la NASA por una universidad estadounidense. Este sistema posee un conocimiento químico muy sólido y puede inferir respuestas similares a las de un experto en química a través de preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl propuso las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, un programa de ajedrez de una empresa de tecnología venció al campeón de ajedrez Kasparov por 3.5 a 2.5, y esta victoria se consideró un hito para la inteligencia artificial, marcando el comienzo de un segundo auge en el desarrollo de la tecnología de IA.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y también fue el apogeo del conexionismo.
Muchos eventos emblemáticos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, un sistema de inteligencia artificial ganó al ser humano y se coronó campeón en el programa de preguntas "Dangerous Edge".
En 2014, Goodfellow propuso la red generativa antagónica GAN), que aprende mediante un juego entre dos redes neuronales, capaz de generar fotos que son indistinguibles de las reales. Al mismo tiempo, Goodfellow escribió un libro titulado "Deep Learning", que se convirtió en uno de los libros de referencia más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron el algoritmo de aprendizaje profundo, lo que provocó una gran repercusión en el ámbito académico y en la industria.
En 2015, OpenAI fue fundada, recibiendo una inversión conjunta de 1.000 millones de dólares de varios inversores conocidos.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó al campeón mundial de Go, el profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, un robot humanoide llamado Sophia, desarrollado por una empresa de tecnología, obtuvo la ciudadanía, con una rica gama de expresiones faciales y capacidad de comprensión del lenguaje humano.
En 2017, Google publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, comenzando así la aparición de modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó GPT, un modelo de lenguaje construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de la época.
En 2018, DeepMind lanzó AlphaFold, basado en aprendizaje profundo, que puede predecir la estructura de las proteínas, considerado un gran avance en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, que cuenta con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para su entrenamiento y puede alcanzar un rendimiento de vanguardia en múltiples tareas de PLN.
En 2021, OpenAI lanzó GPT-4, que cuenta con 1.76 billones de parámetros, lo que equivale a 10 veces GPT-3.
La aplicación ChatGPT basada en el modelo GPT-4 se lanzó en enero de 2023, alcanzando cien millones de usuarios en marzo, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
Cadena de la industria de aprendizaje profundo
Los modelos de lenguaje actuales utilizan métodos de aprendizaje profundo basados en redes neuronales. Encabezados por GPT, los grandes modelos han generado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado una explosión en la demanda del mercado por datos y potencia de cálculo. Por lo tanto, en esta parte del informe, exploramos principalmente la cadena de producción de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen sus cadenas de suministro y demanda? ¿Cuál es el estado actual de estas cadenas y su relación de oferta y demanda, así como su desarrollo futuro?
Primero necesitamos aclarar que, al realizar el entrenamiento de grandes modelos LLMs( liderados por GPT basados en la tecnología Transformer), se divide en tres pasos.
Antes del entrenamiento, debido a que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se denomina "Tokenization". Después, estos valores se conocen como Tokens. Según la regla general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, como el ejemplo mencionado en la primera parte del informe (X,Y), se buscan los mejores parámetros para cada neurona del modelo. En este momento, se necesita una gran cantidad de datos, y este proceso también es el más costoso en términos de computación, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento con el fin de iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño pero de muy alta calidad para el entrenamiento, este cambio permitirá que la salida del modelo tenga una mayor calidad, ya que el preentrenamiento requiere grandes cantidades de datos, pero muchos de estos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso es el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa". El propósito de este modelo es muy simple: clasificar los resultados de salida. Por lo tanto, implementar este modelo será relativamente sencillo, ya que el escenario de negocio es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, de modo que podamos usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ( Sin embargo, a veces también es necesario que la intervención humana participe para evaluar la calidad de la salida del modelo ).
En resumen, durante el proceso de entrenamiento de grandes modelos, el preentrenamiento tiene una demanda muy alta de la cantidad de datos, y la potencia de cálculo de GPU necesaria es también la mayor, mientras que el ajuste fino requiere datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuanto más parámetros haya, mayor será el límite de generalización, por ejemplo, en el caso que usamos como ejemplo de función Y = aX + b, en realidad hay dos neuronas X y X0, por lo tanto, cómo varían los parámetros, los datos que pueden ajustarse son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, se podrán iterar más parámetros, lo que permitirá ajustar más datos, esta es la razón por la que los grandes modelos logran milagros, y también es la razón por la que se les llama comúnmente grandes modelos, su esencia es una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo, se necesita una gran cantidad de poder de cálculo.
Por lo tanto, el rendimiento de los grandes modelos se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización de los grandes modelos. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n( calculada en función del número de tokens), entonces podemos calcular la cantidad de cálculo requerida a través de una regla empírica general, lo que nos permitirá estimar la potencia de cálculo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante; las operaciones de punto flotante son el término general para la suma, resta, multiplicación y división de números no enteros, como 2.5 + 3.557. El punto flotante indica que puede haber un punto decimal, y FP16 representa la precisión que admite decimales, mientras que FP32 es una precisión más común. Según las reglas empíricas basadas en la práctica, el preentrenamiento (Pre-traning) una vez ( generalmente entrenará múltiples veces ) un gran modelo, lo que requiere aproximadamente 6np Flops, donde 6 se llama constante de la industria. Y la inferencia (Inference, es el proceso en el que ingresamos un dato y esperamos la salida del gran modelo ), dividido en dos partes: entrada de n tokens y salida de n tokens, por lo que se necesitan aproximadamente 2np Flops en total.
En los primeros días, se utilizaban chips de CPU para el entrenamiento y proporcionar soporte de cálculo, pero luego se comenzó a utilizar gradualmente GPU como reemplazo, como los chips A100 y H100 de Nvidia. Porque la CPU existe como un cálculo general, pero la GPU puede ser utilizada como específica.