El reciente desarrollo de la industria de la IA ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado notablemente la eficiencia en diversas industrias, y se estima que GPT ha aumentado aproximadamente un 20% la eficiencia laboral en Estados Unidos. La capacidad de generalización que traen estos grandes modelos se considera un nuevo paradigma de diseño de software, donde el diseño de código preciso del pasado se ha transformado en un marco de grandes modelos más generalizados integrado en el software, lo que permite un mejor rendimiento del software y el soporte para una gama más amplia de entradas y salidas modales. La tecnología de aprendizaje profundo realmente ha traído la cuarta prosperidad a la industria de la IA, y esta tendencia también ha influido en la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de tecnologías, así como el impacto de la invención de la tecnología de aprendizaje profundo en la industria. Luego, se analizarán en profundidad los eslabones de la cadena industrial de la inteligencia profunda, como GPU, computación en la nube, fuentes de datos y dispositivos de borde, así como su estado de desarrollo y tendencias. Después, se explorará esencialmente la relación entre la industria de Crypto y la IA, organizando el panorama de la cadena industrial de AI relacionada con Crypto.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para alcanzar la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado diversas corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinarios.
La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas mejoren el rendimiento del sistema iterando repetidamente en tareas basadas en datos. Los pasos principales son enviar datos al algoritmo, utilizar estos datos para entrenar el modelo, probar y desplegar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres principales corrientes: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo representado por redes neuronales ocupa una posición dominante ( también conocido como aprendizaje profundo ), la razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y neuronas ( parámetros ) es lo suficientemente alto, hay suficientes oportunidades para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar constantemente los parámetros de las neuronas, y después de haber pasado por múltiples datos, esa neurona alcanzará su estado óptimo ( parámetros ), que también es el origen de la palabra "profundidad" - un número suficiente de capas y neuronas.
La comprensión simple es que se construye una función, a la que al ingresar X=2, obtenemos Y=3; y al ingresar X=3, obtenemos Y=5. Si queremos que esta función se aplique a todos los X, necesitamos seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, podemos construir una función que cumpla con esta condición como Y = 2X -1. Sin embargo, si hay un dato donde X=2 y Y=11, necesitaremos reconstruir una función adecuada para estos tres puntos de datos. Al utilizar GPU para un ataque de fuerza bruta, encontramos que Y = X2 -3X +5 es bastante adecuada, pero no es necesario que coincida completamente con los datos; solo necesita seguir un equilibrio y proporcionar una salida aproximadamente similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para ajustar los nuevos datos. De esta manera, podremos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, como las redes neuronales más tempranas, redes neuronales de retroalimentación, RNN, CNN y GAN, que finalmente evolucionaron hacia los modelos grandes modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que agrega un convertidor ( Transformer ), utilizado para codificar los datos de todos los modos (, como audio, video, imágenes, etc. ) en valores numéricos correspondientes para representarlos. Luego se introducen en la red neuronal, de esta manera la red neuronal puede ajustar cualquier tipo de datos, logrando así la multimodalidad.
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento del lenguaje natural y diálogo humano-máquina. En ese mismo período, nacieron los sistemas expertos, como el sistema experto DENRAL, que se completó bajo la supervisión de la NASA en la Universidad de Stanford. Este sistema posee un conocimiento químico muy sólido y genera respuestas similares a las de un experto químico a través de inferencias basadas en preguntas. Este sistema experto en química puede considerarse una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después del sistema experto, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ( presentó las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, IBM Deep Blue venció al campeón de ajedrez Garry Kasparov 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial, marcando el inicio de un nuevo auge en la tecnología AI.
La tercera ola de tecnología de IA ocurrió en 2006. Los tres grandes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos últimos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y este también fue el apogeo del conexionismo.
Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de IBM ) ganó el campeonato en el programa de preguntas y respuestas "Jeopardy" ( al vencer a humanos.
En 2014, Goodfellow propuso la Red Generativa Antagónica), Generative Adversarial Network(, que aprende mediante la competencia entre dos redes neuronales, siendo capaz de generar fotos indistinguibles de las reales. Al mismo tiempo, Goodfellow escribió un libro titulado "Deep Learning", conocido como el libro de las flores, que es uno de los textos de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que causó una gran repercusión en el ámbito académico y en la industria.
En 2015, OpenAI fue fundado, con Musk, el presidente de YC Altman, el inversor ángel Peter Thiel) y otros, anunciando una inversión conjunta de 1,000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, compitió en una batalla de Go contra el campeón mundial y jugador profesional de 9 dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics ( en Hong Kong, China, desarrolló un robot humanoide llamado Sofía, que es considerado el primer robot en la historia en obtener la ciudadanía de primer nivel, poseyendo una rica gama de expresiones faciales y capacidad de comprensión del lenguaje humano.
En 2017, Google, que cuenta con una rica reserva de talento y tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" que presentó el algoritmo Transformer, y comenzaron a aparecer los modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó el GPT)Generative Pre-trained Transformer( construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de su tiempo.
En 2018, el equipo de Google Deepmind lanzó AlphaGo basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, que cuenta con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo fue entrenado con 570 GB de texto y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural, como responder preguntas, traducción y redacción de artículos.
En 2021, OpenAI lanzó GPT-4, un modelo con 1.76 billones de parámetros, que es 10 veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
![Nuevos conceptos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Cadena de industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo impulsados por redes neuronales. Liderados por GPT, los grandes modelos han creado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado una explosión en la demanda del mercado por datos y poder de cálculo. Por lo tanto, en esta parte del informe, exploramos la cadena de suministro de los algoritmos de aprendizaje profundo, cómo se componen las partes superior e inferior en la industria de IA dominada por algoritmos de aprendizaje profundo, y cuál es el estado actual de la relación de oferta y demanda, así como su desarrollo futuro.
Primero, necesitamos aclarar que al llevar a cabo el entrenamiento de grandes modelos LLMs liderados por GPT basados en la tecnología Transformer ), se divide en tres pasos.
Antes de entrenar, dado que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, un proceso conocido como "Tokenización". Después, estos valores se denominan Tokens. Según la regla general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, como el ejemplo de la primera parte del informe (X,Y), se buscan los mejores parámetros de cada neurona bajo este modelo. En este momento se necesita una gran cantidad de datos, y este proceso también es el que más capacidad computacional consume, ya que se requieren iteraciones repetidas de las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se usa el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño, pero de muy alta calidad, para el entrenamiento. Este cambio permitirá que la salida del modelo tenga una calidad superior, ya que el preentrenamiento requiere grandes volúmenes de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso es el aprendizaje reforzado. Primero se establecerá un nuevo modelo, al que llamamos "modelo de recompensa". El propósito de este modelo es muy simple: clasificar los resultados de salida. Por lo tanto, la implementación de este modelo será relativamente sencilla, ya que el escenario de negocio es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro modelo grande es de alta calidad, de esta manera podremos usar un modelo de recompensa para iterar automáticamente los parámetros del modelo grande. ( Sin embargo, a veces también se requiere la participación humana para evaluar la calidad de la salida del modelo ).
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una demanda muy alta de cantidad de datos, y la potencia de cálculo de GPU requerida también es la mayor, mientras que el ajuste fino necesita datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuanto más parámetros haya, mayor será el techo de su capacidad de generalización. Por ejemplo, en el caso de la función Y = aX + b, en realidad hay dos neuronas, X y X0. Por lo tanto, cómo cambian los parámetros, los datos que pueden ajustarse son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos producen milagros, y también es la razón por la cual se les llama comúnmente grandes modelos: su esencia es una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo, requiere una gran cantidad de potencia de cálculo.
Por lo tanto, el rendimiento de los grandes modelos se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cálculo. Estos tres factores afectan conjuntamente la calidad de los resultados y la capacidad de generalización del gran modelo. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n( calculada en función de la cantidad de Tokens), entonces podemos calcular la cantidad de cálculo requerida mediante una regla empírica general, lo que nos permite estimar la capacidad de cálculo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. Las operaciones de punto flotante son un término general para la suma, resta, multiplicación y división de números no enteros, como 2.5+3.557. "Flotante" representa la capacidad de incluir un punto decimal, mientras que FP16 representa una precisión que admite decimales, y FP32 es una precisión más común. Según las reglas empíricas basadas en la práctica, el preentrenamiento
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
21 me gusta
Recompensa
21
4
Compartir
Comentar
0/400
BearMarketSunriser
· 07-28 01:17
Hablando claro, los que juegan al comercio de criptomonedas están esperando que la IA los lleve al éxito.
Ver originalesResponder0
FloorSweeper
· 07-25 20:05
pssh... típico manos de papel fomo'ando en la exageración de la ia rn... he visto este ciclo antes
Ver originalesResponder0
MindsetExpander
· 07-25 13:44
¿Ah, el gran modelo ha cambiado todo el código?
Ver originalesResponder0
CryptoNomics
· 07-25 13:43
tu afirmación de eficiencia del 20% carece de rigor estadístico... primero realiza un análisis de regresión adecuado, smh
Fusión de IA y encriptación: un análisis completo desde la trayectoria de desarrollo hasta la cadena de industria
IA x Cripto: De cero a la cima
Introducción
El reciente desarrollo de la industria de la IA ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado notablemente la eficiencia en diversas industrias, y se estima que GPT ha aumentado aproximadamente un 20% la eficiencia laboral en Estados Unidos. La capacidad de generalización que traen estos grandes modelos se considera un nuevo paradigma de diseño de software, donde el diseño de código preciso del pasado se ha transformado en un marco de grandes modelos más generalizados integrado en el software, lo que permite un mejor rendimiento del software y el soporte para una gama más amplia de entradas y salidas modales. La tecnología de aprendizaje profundo realmente ha traído la cuarta prosperidad a la industria de la IA, y esta tendencia también ha influido en la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de tecnologías, así como el impacto de la invención de la tecnología de aprendizaje profundo en la industria. Luego, se analizarán en profundidad los eslabones de la cadena industrial de la inteligencia profunda, como GPU, computación en la nube, fuentes de datos y dispositivos de borde, así como su estado de desarrollo y tendencias. Después, se explorará esencialmente la relación entre la industria de Crypto y la IA, organizando el panorama de la cadena industrial de AI relacionada con Crypto.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para alcanzar la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado diversas corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinarios.
La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", cuya idea es permitir que las máquinas mejoren el rendimiento del sistema iterando repetidamente en tareas basadas en datos. Los pasos principales son enviar datos al algoritmo, utilizar estos datos para entrenar el modelo, probar y desplegar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres principales corrientes: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo representado por redes neuronales ocupa una posición dominante ( también conocido como aprendizaje profundo ), la razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y neuronas ( parámetros ) es lo suficientemente alto, hay suficientes oportunidades para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar constantemente los parámetros de las neuronas, y después de haber pasado por múltiples datos, esa neurona alcanzará su estado óptimo ( parámetros ), que también es el origen de la palabra "profundidad" - un número suficiente de capas y neuronas.
La comprensión simple es que se construye una función, a la que al ingresar X=2, obtenemos Y=3; y al ingresar X=3, obtenemos Y=5. Si queremos que esta función se aplique a todos los X, necesitamos seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, podemos construir una función que cumpla con esta condición como Y = 2X -1. Sin embargo, si hay un dato donde X=2 y Y=11, necesitaremos reconstruir una función adecuada para estos tres puntos de datos. Al utilizar GPU para un ataque de fuerza bruta, encontramos que Y = X2 -3X +5 es bastante adecuada, pero no es necesario que coincida completamente con los datos; solo necesita seguir un equilibrio y proporcionar una salida aproximadamente similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para ajustar los nuevos datos. De esta manera, podremos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, como las redes neuronales más tempranas, redes neuronales de retroalimentación, RNN, CNN y GAN, que finalmente evolucionaron hacia los modelos grandes modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que agrega un convertidor ( Transformer ), utilizado para codificar los datos de todos los modos (, como audio, video, imágenes, etc. ) en valores numéricos correspondientes para representarlos. Luego se introducen en la red neuronal, de esta manera la red neuronal puede ajustar cualquier tipo de datos, logrando así la multimodalidad.
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento del lenguaje natural y diálogo humano-máquina. En ese mismo período, nacieron los sistemas expertos, como el sistema experto DENRAL, que se completó bajo la supervisión de la NASA en la Universidad de Stanford. Este sistema posee un conocimiento químico muy sólido y genera respuestas similares a las de un experto químico a través de inferencias basadas en preguntas. Este sistema experto en química puede considerarse una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después del sistema experto, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ( presentó las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, IBM Deep Blue venció al campeón de ajedrez Garry Kasparov 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial, marcando el inicio de un nuevo auge en la tecnología AI.
La tercera ola de tecnología de IA ocurrió en 2006. Los tres grandes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos últimos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y este también fue el apogeo del conexionismo.
Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de IBM ) ganó el campeonato en el programa de preguntas y respuestas "Jeopardy" ( al vencer a humanos.
En 2014, Goodfellow propuso la Red Generativa Antagónica), Generative Adversarial Network(, que aprende mediante la competencia entre dos redes neuronales, siendo capaz de generar fotos indistinguibles de las reales. Al mismo tiempo, Goodfellow escribió un libro titulado "Deep Learning", conocido como el libro de las flores, que es uno de los textos de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que causó una gran repercusión en el ámbito académico y en la industria.
En 2015, OpenAI fue fundado, con Musk, el presidente de YC Altman, el inversor ángel Peter Thiel) y otros, anunciando una inversión conjunta de 1,000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, compitió en una batalla de Go contra el campeón mundial y jugador profesional de 9 dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics ( en Hong Kong, China, desarrolló un robot humanoide llamado Sofía, que es considerado el primer robot en la historia en obtener la ciudadanía de primer nivel, poseyendo una rica gama de expresiones faciales y capacidad de comprensión del lenguaje humano.
En 2017, Google, que cuenta con una rica reserva de talento y tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" que presentó el algoritmo Transformer, y comenzaron a aparecer los modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó el GPT)Generative Pre-trained Transformer( construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de su tiempo.
En 2018, el equipo de Google Deepmind lanzó AlphaGo basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, que cuenta con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo fue entrenado con 570 GB de texto y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural, como responder preguntas, traducción y redacción de artículos.
En 2021, OpenAI lanzó GPT-4, un modelo con 1.76 billones de parámetros, que es 10 veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
![Nuevos conceptos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Cadena de industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo impulsados por redes neuronales. Liderados por GPT, los grandes modelos han creado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado una explosión en la demanda del mercado por datos y poder de cálculo. Por lo tanto, en esta parte del informe, exploramos la cadena de suministro de los algoritmos de aprendizaje profundo, cómo se componen las partes superior e inferior en la industria de IA dominada por algoritmos de aprendizaje profundo, y cuál es el estado actual de la relación de oferta y demanda, así como su desarrollo futuro.
Primero, necesitamos aclarar que al llevar a cabo el entrenamiento de grandes modelos LLMs liderados por GPT basados en la tecnología Transformer ), se divide en tres pasos.
Antes de entrenar, dado que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, un proceso conocido como "Tokenización". Después, estos valores se denominan Tokens. Según la regla general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. Al proporcionar suficientes pares de datos a la capa de entrada, como el ejemplo de la primera parte del informe (X,Y), se buscan los mejores parámetros de cada neurona bajo este modelo. En este momento se necesita una gran cantidad de datos, y este proceso también es el que más capacidad computacional consume, ya que se requieren iteraciones repetidas de las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se usa el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un conjunto de datos más pequeño, pero de muy alta calidad, para el entrenamiento. Este cambio permitirá que la salida del modelo tenga una calidad superior, ya que el preentrenamiento requiere grandes volúmenes de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso es el aprendizaje reforzado. Primero se establecerá un nuevo modelo, al que llamamos "modelo de recompensa". El propósito de este modelo es muy simple: clasificar los resultados de salida. Por lo tanto, la implementación de este modelo será relativamente sencilla, ya que el escenario de negocio es bastante vertical. Luego, utilizaremos este modelo para determinar si la salida de nuestro modelo grande es de alta calidad, de esta manera podremos usar un modelo de recompensa para iterar automáticamente los parámetros del modelo grande. ( Sin embargo, a veces también se requiere la participación humana para evaluar la calidad de la salida del modelo ).
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una demanda muy alta de cantidad de datos, y la potencia de cálculo de GPU requerida también es la mayor, mientras que el ajuste fino necesita datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuanto más parámetros haya, mayor será el techo de su capacidad de generalización. Por ejemplo, en el caso de la función Y = aX + b, en realidad hay dos neuronas, X y X0. Por lo tanto, cómo cambian los parámetros, los datos que pueden ajustarse son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos producen milagros, y también es la razón por la cual se les llama comúnmente grandes modelos: su esencia es una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo, requiere una gran cantidad de potencia de cálculo.
Por lo tanto, el rendimiento de los grandes modelos se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cálculo. Estos tres factores afectan conjuntamente la calidad de los resultados y la capacidad de generalización del gran modelo. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n( calculada en función de la cantidad de Tokens), entonces podemos calcular la cantidad de cálculo requerida mediante una regla empírica general, lo que nos permite estimar la capacidad de cálculo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. Las operaciones de punto flotante son un término general para la suma, resta, multiplicación y división de números no enteros, como 2.5+3.557. "Flotante" representa la capacidad de incluir un punto decimal, mientras que FP16 representa una precisión que admite decimales, y FP32 es una precisión más común. Según las reglas empíricas basadas en la práctica, el preentrenamiento