La "guerra de los cien modelos" en la ola de grandes modelos de IA
El mes pasado, estalló una "guerra de animales" en el mundo de la IA. Por un lado está Llama de Meta, que es muy popular entre los desarrolladores debido a su naturaleza de código abierto. La empresa japonesa NEC, tras referenciar el documento y el código de Llama, desarrolló rápidamente una versión en japonés de ChatGPT, resolviendo el cuello de botella en el desarrollo de IA en Japón.
El otro lado es un modelo grande llamado Falcon. En mayo de este año, Falcon-40B fue lanzado, superando a Llama y ocupando el primer lugar en la lista de LLM de código abierto. Esta lista es elaborada por la comunidad de modelos de código abierto y proporciona estándares de evaluación de capacidades LLM y clasificaciones. Llama y Falcon se alternan en la cima de la lista.
Después del lanzamiento de Llama 2, recuperó temporalmente el primer lugar; pero a principios de septiembre, Falcon lanzó la versión 180B, logrando nuevamente una clasificación más alta.
Curiosamente, los desarrolladores de Falcon son el Instituto de Innovación Tecnológica de Abu Dabi, la capital de los Emiratos Árabes Unidos, y no una empresa tecnológica. Las autoridades de los Emiratos Árabes Unidos han declarado que participar en la competencia de IA es para desafiar el orden establecido.
Al día siguiente del lanzamiento del Falcon 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue incluido en la lista de las "100 personas más influyentes en el campo de la IA" de la revista Time, junto a figuras como el "padre de la IA" Geoffrey Hinton y Sam Altman de OpenAI.
Hoy en día, el campo de la IA ha entrado en una fase de florecimiento. Los países y empresas con ciertos recursos financieros están intentando crear versiones locales de ChatGPT. Solo en la región del Golfo, ya hay múltiples participantes. En agosto, Arabia Saudita compró más de 3000 chips H100 para universidades nacionales, destinados a entrenar LLM.
El inversor Zhu Xiaohu comentó que, en su momento, se consideraba que el emprendimiento en internet carecía de barreras, y ahora el emprendimiento en modelos de tecnología avanzada también se ha convertido en una guerra de cientos de modelos.
¿Por qué la tecnología dura, que originalmente se consideraba de alto umbral, se ha convertido en un proyecto que los países compiten por desarrollar?
Transformer desata la revolución de la IA
Independientemente de la nacionalidad, los modelos grandes actuales, incluidos los de la serie GPT, se basan en el algoritmo Transformer. En 2017, ocho científicos de Google publicaron el algoritmo Transformer en el artículo "Attention Is All You Need", que se convirtió en el tercer artículo más citado en la historia de la IA y es clave en esta ola actual de entusiasmo por la IA.
Hasta ahora, "enseñar a las máquinas a leer" ha sido un problema difícil en el ámbito académico. A diferencia del reconocimiento de imágenes, los humanos comprenden el texto combinando el contexto. Las primeras redes neuronales tenían dificultades para entender textos largos, lo que a menudo resultaba en problemas de traducción.
En 2014, el científico de Google Ilya propuso redes neuronales recurrentes (RNN) para el procesamiento del lenguaje natural, mejorando significativamente el rendimiento de Google Translate. RNN introduce un "diseño cíclico", lo que permite a la red neuronal combinar el contexto.
Las RNN despertaron el entusiasmo en la academia, pero presentan problemas como la baja eficiencia y la dificultad para manejar grandes cantidades de parámetros. A partir de 2015, Shaze et al. comenzaron a desarrollar alternativas a las RNN, lo que finalmente dio lugar al Transformer.
Transformer tiene dos grandes mejoras en comparación con RNN: la primera es el uso de codificación de posición en lugar del diseño cíclico, lo que permite el cálculo en paralelo y mejora significativamente la eficiencia de entrenamiento; la segunda es que refuerza aún más la capacidad de comprensión del contexto. Transformer ha resuelto numerosos problemas y se ha convertido gradualmente en la solución principal en el campo del NLP.
En 2019, OpenAI desarrolló GPT-2 basado en Transformer, sorprendiendo a la comunidad académica. Google rápidamente lanzó Meena, que superó a GPT-2 solo aumentando parámetros y potencia de cálculo. La aparición de Transformer ha ralentizado la velocidad de innovación de algoritmos, y factores de ingeniería como datos, potencia de cálculo, arquitectura de modelos, etc., se han convertido en la clave de la competencia en IA.
El científico de la computación Andrew Ng cree que la IA está convirtiéndose en una tecnología general como la electricidad y el internet. La firma de análisis Semi Analysis prevé que otras grandes empresas tecnológicas podrán crear pronto modelos grandes que compitan con el rendimiento de GPT-4.
Desafíos detrás de la Batalla de los Cien Modelos
Hasta julio de este año, la cantidad de grandes modelos en China ha alcanzado los 130, superando a los 114 de Estados Unidos. Además de China y Estados Unidos, otros países ricos también han comenzado a desarrollar grandes modelos locales, como Bhashini de India y HyperClova X de Naver de Corea.
Esta situación recuerda a la era de la burbuja de Internet. Aunque los Transformers han reducido la barrera de entrada para el desarrollo de grandes modelos, no significa que todos puedan convertirse en gigantes de la IA. Tomando "La guerra de los animales" como ejemplo, aunque Falcon ha salido victorioso en el ranking, su impacto en Meta es limitado.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva. Meta estableció su estrategia de código abierto ya en 2015. En octubre, Meta también lanzó la iniciativa "Incentivo a Creadores de IA", financiando a desarrolladores que utilizan Llama 2 para resolver problemas sociales.
Actualmente, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto. A principios de octubre, 8 de los 10 primeros en el ranking de Hugging Face están desarrollados sobre Llama 2, y hay más de 1500 LLM que utilizan su licencia de código abierto.
Aunque mejorar el rendimiento es un camino viable, la mayoría de los LLM tienen una diferencia notable con GPT-4. En la prueba AgentBench, GPT-4 ocupó el primer lugar con 4.41 puntos, el segundo lugar Claude solo obtuvo 2.77 puntos, y muchos LLM de código abierto rondan 1 punto. Esta brecha se debe a la fortaleza del equipo de OpenAI y a la experiencia acumulada a lo largo del tiempo.
Por lo tanto, la competencia central de los grandes modelos radica en la construcción del ecosistema ( código abierto ) o pura capacidad de inferencia ( cerrado ). A medida que la comunidad de código abierto se desarrolla, el rendimiento de los LLM podría converger. La pregunta más directa es que, a excepción de Midjourney, parece que aún no hay grandes modelos que hayan logrado rentabilidad.
El dilema del anclaje de valor
En agosto de este año, un artículo que predice que OpenAI podría declararse en quiebra a finales de 2024 ha llamado la atención. El artículo señala que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, con pérdidas de aproximadamente 540 millones de dólares en 2022, dependiendo de la inversión de Microsoft. Esto refleja el problema general de desequilibrio entre costos e ingresos que enfrentan los proveedores de modelos grandes.
Los altos costos significan que los principales beneficiarios en la actualidad son los fabricantes de chips como Nvidia. Según Omdia, Nvidia vendió más de 300,000 chips H100 en el segundo trimestre, un peso equivalente a 4.5 aviones Boeing 747. Nvidia ha visto un gran aumento en su rendimiento, y el precio de reventa del H100 se ha disparado a entre 40,000 y 50,000 dólares, mientras que el costo es de poco más de 3,000 dólares.
El costo de la potencia de cálculo se ha convertido en una resistencia al desarrollo de la industria. Se estima que Sequoia Capital, las empresas tecnológicas de todo el mundo gastarán 200 mil millones de dólares al año en la construcción de infraestructura de grandes modelos, mientras que los ingresos anuales de los grandes modelos alcanzan un máximo de 75 mil millones de dólares, lo que representa un déficit de al menos 125 mil millones de dólares.
La mayoría de las empresas de software aún no han encontrado un modelo de negocio rentable después de invertir grandes sumas de dinero. Incluso gigantes como Microsoft y Adobe enfrentan desafíos. GitHub Copilot, que Microsoft desarrolló en colaboración con OpenAI, pierde entre 20 y 80 dólares por usuario al mes. Adobe ha introducido un sistema de puntos para la herramienta Firefly AI, limitando el uso excesivo por parte de los usuarios.
La mayoría de las principales aplicaciones de los grandes modelos todavía se limitan a la conversación. Aunque OpenAI y ChatGPT han impulsado la revolución de la IA, el valor de entrenar grandes modelos por sí solo es dudoso. A medida que aumenta la competencia homogénea y se multiplican los modelos de código abierto, el espacio para los proveedores de grandes modelos puros podría disminuir aún más.
Así como el éxito del iPhone 4 no radica en el procesador A4, sino en su ecosistema de aplicaciones, el futuro de los grandes modelos también dependerá del valor que creen en aplicaciones prácticas.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
13 me gusta
Recompensa
13
6
Compartir
Comentar
0/400
NoodlesOrTokens
· 07-25 10:23
No esperaba que los Emiratos Árabes Unidos se involucraran en la guerra de los cien modelos de IA.
Ver originalesResponder0
PumpBeforeRug
· 07-24 05:35
Quién será el último ganador aún no está claro, difícil de decir~
Ver originalesResponder0
SlowLearnerWang
· 07-24 05:33
¿Qué? Nadie ganó en la pelea de animales.
Ver originalesResponder0
BankruptcyArtist
· 07-24 05:26
Estos parámetros mutuamente enrollados no son mejores que conectar un gran modelo con otro gran modelo.
Ver originalesResponder0
SocialAnxietyStaker
· 07-24 05:21
¿De qué sirve estar subiendo en el ranking? No es una competición de clasificación.
La gran batalla de los modelos de IA: de la revolución Transformer a la competencia ecológica
La "guerra de los cien modelos" en la ola de grandes modelos de IA
El mes pasado, estalló una "guerra de animales" en el mundo de la IA. Por un lado está Llama de Meta, que es muy popular entre los desarrolladores debido a su naturaleza de código abierto. La empresa japonesa NEC, tras referenciar el documento y el código de Llama, desarrolló rápidamente una versión en japonés de ChatGPT, resolviendo el cuello de botella en el desarrollo de IA en Japón.
El otro lado es un modelo grande llamado Falcon. En mayo de este año, Falcon-40B fue lanzado, superando a Llama y ocupando el primer lugar en la lista de LLM de código abierto. Esta lista es elaborada por la comunidad de modelos de código abierto y proporciona estándares de evaluación de capacidades LLM y clasificaciones. Llama y Falcon se alternan en la cima de la lista.
Después del lanzamiento de Llama 2, recuperó temporalmente el primer lugar; pero a principios de septiembre, Falcon lanzó la versión 180B, logrando nuevamente una clasificación más alta.
Curiosamente, los desarrolladores de Falcon son el Instituto de Innovación Tecnológica de Abu Dabi, la capital de los Emiratos Árabes Unidos, y no una empresa tecnológica. Las autoridades de los Emiratos Árabes Unidos han declarado que participar en la competencia de IA es para desafiar el orden establecido.
Al día siguiente del lanzamiento del Falcon 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue incluido en la lista de las "100 personas más influyentes en el campo de la IA" de la revista Time, junto a figuras como el "padre de la IA" Geoffrey Hinton y Sam Altman de OpenAI.
Hoy en día, el campo de la IA ha entrado en una fase de florecimiento. Los países y empresas con ciertos recursos financieros están intentando crear versiones locales de ChatGPT. Solo en la región del Golfo, ya hay múltiples participantes. En agosto, Arabia Saudita compró más de 3000 chips H100 para universidades nacionales, destinados a entrenar LLM.
El inversor Zhu Xiaohu comentó que, en su momento, se consideraba que el emprendimiento en internet carecía de barreras, y ahora el emprendimiento en modelos de tecnología avanzada también se ha convertido en una guerra de cientos de modelos.
¿Por qué la tecnología dura, que originalmente se consideraba de alto umbral, se ha convertido en un proyecto que los países compiten por desarrollar?
Transformer desata la revolución de la IA
Independientemente de la nacionalidad, los modelos grandes actuales, incluidos los de la serie GPT, se basan en el algoritmo Transformer. En 2017, ocho científicos de Google publicaron el algoritmo Transformer en el artículo "Attention Is All You Need", que se convirtió en el tercer artículo más citado en la historia de la IA y es clave en esta ola actual de entusiasmo por la IA.
Hasta ahora, "enseñar a las máquinas a leer" ha sido un problema difícil en el ámbito académico. A diferencia del reconocimiento de imágenes, los humanos comprenden el texto combinando el contexto. Las primeras redes neuronales tenían dificultades para entender textos largos, lo que a menudo resultaba en problemas de traducción.
En 2014, el científico de Google Ilya propuso redes neuronales recurrentes (RNN) para el procesamiento del lenguaje natural, mejorando significativamente el rendimiento de Google Translate. RNN introduce un "diseño cíclico", lo que permite a la red neuronal combinar el contexto.
Las RNN despertaron el entusiasmo en la academia, pero presentan problemas como la baja eficiencia y la dificultad para manejar grandes cantidades de parámetros. A partir de 2015, Shaze et al. comenzaron a desarrollar alternativas a las RNN, lo que finalmente dio lugar al Transformer.
Transformer tiene dos grandes mejoras en comparación con RNN: la primera es el uso de codificación de posición en lugar del diseño cíclico, lo que permite el cálculo en paralelo y mejora significativamente la eficiencia de entrenamiento; la segunda es que refuerza aún más la capacidad de comprensión del contexto. Transformer ha resuelto numerosos problemas y se ha convertido gradualmente en la solución principal en el campo del NLP.
En 2019, OpenAI desarrolló GPT-2 basado en Transformer, sorprendiendo a la comunidad académica. Google rápidamente lanzó Meena, que superó a GPT-2 solo aumentando parámetros y potencia de cálculo. La aparición de Transformer ha ralentizado la velocidad de innovación de algoritmos, y factores de ingeniería como datos, potencia de cálculo, arquitectura de modelos, etc., se han convertido en la clave de la competencia en IA.
El científico de la computación Andrew Ng cree que la IA está convirtiéndose en una tecnología general como la electricidad y el internet. La firma de análisis Semi Analysis prevé que otras grandes empresas tecnológicas podrán crear pronto modelos grandes que compitan con el rendimiento de GPT-4.
Desafíos detrás de la Batalla de los Cien Modelos
Hasta julio de este año, la cantidad de grandes modelos en China ha alcanzado los 130, superando a los 114 de Estados Unidos. Además de China y Estados Unidos, otros países ricos también han comenzado a desarrollar grandes modelos locales, como Bhashini de India y HyperClova X de Naver de Corea.
Esta situación recuerda a la era de la burbuja de Internet. Aunque los Transformers han reducido la barrera de entrada para el desarrollo de grandes modelos, no significa que todos puedan convertirse en gigantes de la IA. Tomando "La guerra de los animales" como ejemplo, aunque Falcon ha salido victorioso en el ranking, su impacto en Meta es limitado.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva. Meta estableció su estrategia de código abierto ya en 2015. En octubre, Meta también lanzó la iniciativa "Incentivo a Creadores de IA", financiando a desarrolladores que utilizan Llama 2 para resolver problemas sociales.
Actualmente, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto. A principios de octubre, 8 de los 10 primeros en el ranking de Hugging Face están desarrollados sobre Llama 2, y hay más de 1500 LLM que utilizan su licencia de código abierto.
Aunque mejorar el rendimiento es un camino viable, la mayoría de los LLM tienen una diferencia notable con GPT-4. En la prueba AgentBench, GPT-4 ocupó el primer lugar con 4.41 puntos, el segundo lugar Claude solo obtuvo 2.77 puntos, y muchos LLM de código abierto rondan 1 punto. Esta brecha se debe a la fortaleza del equipo de OpenAI y a la experiencia acumulada a lo largo del tiempo.
Por lo tanto, la competencia central de los grandes modelos radica en la construcción del ecosistema ( código abierto ) o pura capacidad de inferencia ( cerrado ). A medida que la comunidad de código abierto se desarrolla, el rendimiento de los LLM podría converger. La pregunta más directa es que, a excepción de Midjourney, parece que aún no hay grandes modelos que hayan logrado rentabilidad.
El dilema del anclaje de valor
En agosto de este año, un artículo que predice que OpenAI podría declararse en quiebra a finales de 2024 ha llamado la atención. El artículo señala que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, con pérdidas de aproximadamente 540 millones de dólares en 2022, dependiendo de la inversión de Microsoft. Esto refleja el problema general de desequilibrio entre costos e ingresos que enfrentan los proveedores de modelos grandes.
Los altos costos significan que los principales beneficiarios en la actualidad son los fabricantes de chips como Nvidia. Según Omdia, Nvidia vendió más de 300,000 chips H100 en el segundo trimestre, un peso equivalente a 4.5 aviones Boeing 747. Nvidia ha visto un gran aumento en su rendimiento, y el precio de reventa del H100 se ha disparado a entre 40,000 y 50,000 dólares, mientras que el costo es de poco más de 3,000 dólares.
El costo de la potencia de cálculo se ha convertido en una resistencia al desarrollo de la industria. Se estima que Sequoia Capital, las empresas tecnológicas de todo el mundo gastarán 200 mil millones de dólares al año en la construcción de infraestructura de grandes modelos, mientras que los ingresos anuales de los grandes modelos alcanzan un máximo de 75 mil millones de dólares, lo que representa un déficit de al menos 125 mil millones de dólares.
La mayoría de las empresas de software aún no han encontrado un modelo de negocio rentable después de invertir grandes sumas de dinero. Incluso gigantes como Microsoft y Adobe enfrentan desafíos. GitHub Copilot, que Microsoft desarrolló en colaboración con OpenAI, pierde entre 20 y 80 dólares por usuario al mes. Adobe ha introducido un sistema de puntos para la herramienta Firefly AI, limitando el uso excesivo por parte de los usuarios.
La mayoría de las principales aplicaciones de los grandes modelos todavía se limitan a la conversación. Aunque OpenAI y ChatGPT han impulsado la revolución de la IA, el valor de entrenar grandes modelos por sí solo es dudoso. A medida que aumenta la competencia homogénea y se multiplican los modelos de código abierto, el espacio para los proveedores de grandes modelos puros podría disminuir aún más.
Así como el éxito del iPhone 4 no radica en el procesador A4, sino en su ecosistema de aplicaciones, el futuro de los grandes modelos también dependerá del valor que creen en aplicaciones prácticas.