La guerra de los cien modelos en la ola de grandes modelos de IA: ¿un problema de ingeniería o un desafío científico?

Question

# La "guerra de los cien modelos" en el campo de la IA: ¿un problema de ingeniería o un desafío científico?El mes pasado, la industria de la IA desató una "guerra de animales".Por un lado, está el modelo Llama lanzado por Meta, que es muy popular entre los desarrolladores debido a su naturaleza de código abierto. Después de investigar el documento y el código fuente de Llama, una empresa japonesa desarrolló rápidamente una versión en japonés de ChatGPT, resolviendo el problema del cuello de botella de la IA en Japón.El otro lado es un modelo grande llamado Falcon. En mayo de este año, Falcon-40B salió al mercado y superó a Llama para ocupar el primer lugar en la lista de LLM de código abierto. Esta lista es elaborada por la comunidad de modelos de código abierto y proporciona estándares para evaluar la capacidad de LLM. Básicamente, la lista es un intercambio entre Llama y Falcon.Después del lanzamiento de Llama 2, la serie Llama lidera temporalmente; pero a principios de septiembre, Falcon lanzó la versión 180B, logrando nuevamente una clasificación más alta.Curiosamente, los desarrolladores de Falcon son el Instituto de Investigación en Innovación Tecnológica de Abu Dabi, la capital de los Emiratos Árabes Unidos. El gobierno de los Emiratos Árabes Unidos ha declarado: "Participamos en este campo para desestabilizar a los jugadores clave".Al día siguiente del lanzamiento del Falcon 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue incluido en la lista de las "100 personas más influyentes en el campo de la IA" seleccionadas por la revista Time; junto a él también fueron seleccionados el "padrino de la IA" Hinton, el de OpenAI Altman, entre otros.Hoy en día, el campo de la IA ha entrado en una fase de intensa competencia: cualquier país o empresa con cierto poder financiero está desarrollando su propio modelo de lenguaje grande. Solo en el círculo de los países del Golfo hay más de un participante: en agosto, Arabia Saudita compró más de 3000 chips H100 para universidades locales con el fin de entrenar LLM.Un inversionista se quejó: "En su momento desprecié la innovación en modelos de negocio de Internet, pensando que no había barreras: la guerra de los cien grupos, la guerra de los cien coches, la guerra de los cien medios; no esperaba que el emprendimiento en modelos de gran tecnología aún fuera una guerra de los cien modelos..."¿Cómo es que debería ser una tecnología dura de alta dificultad, se ha convertido en una situación de un país, un modelo, con una producción de diez mil jin por acre?## Transformer devorando el mundoLas startups estadounidenses, los gigantes tecnológicos chinos y los jeques del petróleo de Oriente Medio pueden perseguir grandes modelos gracias a ese famoso artículo: "Attention Is All You Need".En 2017, 8 científicos de la computación de Google hicieron pública la algoritmo Transformer en este artículo. Este es el tercer artículo más citado en la historia de la inteligencia artificial, y la aparición del Transformer desató esta ola actual de IA.Actualmente, todos los grandes modelos, incluidos los impactantes modelos de la serie GPT, se basan en la arquitectura Transformer.Hasta ahora, "enseñar a las máquinas a leer" ha sido un problema académico reconocido. A diferencia del reconocimiento de imágenes, cuando los humanos leen, no solo se centran en las palabras y frases actuales, sino que también comprenden en función del contexto.Las redes neuronales tempranas tenían entradas independientes entre sí, incapaces de entender textos largos o incluso artículos completos, lo que llevaba a problemas como traducir "开水间" como "open water room".En 2014, el científico informático Ilya, que dejó Google para unirse a OpenAI, fue el primero en lograr un avance. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, lo que permitió que Google Translate superara rápidamente a la competencia.RNN propone "diseño cíclico", permitiendo que cada neurona reciba simultáneamente la entrada actual y la entrada del momento anterior, otorgando a la red neuronal la capacidad de "combinar contexto".La aparición de RNN despertó el entusiasmo de la comunidad académica por la investigación, y más tarde, el autor del artículo sobre Transformer, Ashish Vaswani, también realizó investigaciones profundas. Sin embargo, los desarrolladores pronto descubrieron que RNN tenía defectos graves:El algoritmo utiliza cálculos secuenciales. Aunque resuelve el problema del contexto, su eficiencia de ejecución no es alta y es difícil manejar una gran cantidad de parámetros.El diseño complicado de RNN pronto comenzó a aburrir a Szyszkowski. Por lo tanto, a partir de 2015, Szyszkowski y siete personas afines comenzaron a desarrollar un sustituto de RNN, y el resultado final fue el Transformer.En comparación con RNN, Transformer tiene dos grandes transformaciones:Primero, se reemplaza el diseño cíclico de RNN con codificación de posición para lograr el cálculo en paralelo, lo que mejora significativamente la eficiencia de entrenamiento de Transformer, permitiéndole manejar grandes volúmenes de datos y llevando la IA hacia la era de los grandes modelos; segundo, se refuerza aún más la capacidad de contexto.Tras resolver numerosos defectos, Transformer se ha convertido gradualmente en la solución dominante para el procesamiento de lenguaje natural NLP(, dando la sensación de que "si no existiera Transformer, el NLP estaría en una larga noche eterna". Incluso Ilia ha abandonado su propio RNN, para unirse a Transformer.En otras palabras, el Transformer es el ancestro de todos los grandes modelos de hoy en día, convirtiendo la investigación teórica de grandes modelos en un problema puramente ingenieril.En 2019, OpenAI desarrolló GPT-2 basado en Transformer, sorprendiendo a la comunidad académica. En respuesta, Google lanzó rápidamente un modelo de IA más potente llamado Meena.En comparación con GPT-2, Meena no presenta innovaciones en el algoritmo subyacente, solo aumenta los parámetros de entrenamiento en 8.5 veces y la potencia de cálculo en 14 veces. El autor del artículo sobre Transformer, Jozefowicz, quedó muy sorprendido por esta "acumulación violenta" y de inmediato escribió un memorando titulado "Meena devora el mundo".Después de la aparición del Transformer, la velocidad de innovación de los algoritmos en la academia se ha ralentizado considerablemente. Elementos ingenieriles como la ingeniería de datos, la escala de computación y la arquitectura del modelo se han convertido cada vez más en claves para la competencia en IA; cualquier empresa tecnológica con cierta capacidad técnica puede desarrollar grandes modelos por sí misma.Por lo tanto, el científico informático Andrew Ng, durante su charla en la Universidad de Stanford, propuso: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la actual inteligencia artificial generativa. Todas estas son tecnologías generales, similares a otras tecnologías generales como la electricidad y el internet."OpenAI sigue siendo el referente de los LLM, pero las instituciones de análisis de semiconductores creen que la competitividad de GPT-4 proviene de soluciones de ingeniería: si se abre el código, cualquier competidor podrá replicarlo rápidamente.El analista espera que otras grandes empresas tecnológicas puedan pronto desarrollar modelos grandes con un rendimiento comparable al de GPT-4.## Un foso construido sobre cristalEn la actualidad, "la batalla de los cien modelos" ya no es una metáfora, sino una realidad objetiva.Los informes relacionados muestran que, hasta julio de este año, el número de grandes modelos en el país ha alcanzado los 130, superando los 114 de Estados Unidos, logrando un avance significativo. Todo tipo de mitos y leyendas ya no son suficientes para que las empresas tecnológicas nacionales los utilicen como nombres.Fuera de Estados Unidos y China, algunos países más ricos también han comenzado a implementar "un país, un modelo": además de Japón y los Emiratos Árabes Unidos, están Bhashini liderado por el gobierno de India y HyperClova X desarrollado por una empresa de internet de Corea del Sur.La situación actual parece haber regresado a la era de la expansión de Internet, donde había burbujas por todas partes y el capital dominaba.Como se mencionó anteriormente, el Transformer convierte los grandes modelos en un problema puramente ingenieril; mientras haya personas con dinero y tarjetas gráficas, lo demás se deja en manos de los parámetros. Pero aunque la barrera de entrada no sea alta, no significa que todos tengan la oportunidad de convertirse en gigantes de la era de la IA.El "Animal Battle" mencionado al principio es un caso típico: aunque Falcon está clasificado por encima de Llama, es difícil decir cuánto impacto ha tenido en Meta.Como es bien sabido, las empresas abren sus propios resultados de investigación para compartir los beneficios tecnológicos con la sociedad y también para incentivar la inteligencia colectiva. A medida que profesores universitarios, instituciones de investigación y pequeñas y medianas empresas continúan utilizando y mejorando Llama, Meta puede aplicar estos resultados en sus propios productos.Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la principal ventaja competitiva.Desde la creación del laboratorio de IA en 2015, Meta ha establecido un tono de código abierto; Zuckerberg, que comenzó su carrera en las redes sociales, entiende mejor la importancia de "mantener buenas relaciones con el público".Por ejemplo, en octubre, Meta organizó el evento "Incentivos para Creadores de IA": los desarrolladores que utilizan Llama 2 para resolver problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir una subvención de 500,000 dólares.Hoy en día, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto.A principios de octubre, en el ranking de LLM de código abierto Top 10, 8 de ellos están construidos sobre Llama 2, todos utilizando su licencia de código abierto. Solo en esta plataforma, el número de LLM que utilizan la licencia de código abierto de Llama 2 ha superado los 1500.Por supuesto, mejorar el rendimiento como Falcon no está de más, pero actualmente la mayoría de los LLM en el mercado aún tienen una diferencia notable con GPT-4.Por ejemplo, hace poco, GPT-4 alcanzó el primer lugar en la lista de pruebas de AgentBench con una puntuación de 4.41. AgentBench fue lanzado conjuntamente por la Universidad Tsinghua, la Universidad Estatal de Ohio y la Universidad de California en Berkeley, y se utiliza para evaluar la capacidad de razonamiento y toma de decisiones de LLM en un entorno de generación abierta multidimensional. El contenido de la prueba abarca tareas en 8 entornos diferentes, incluyendo sistemas operativos, bases de datos, grafos de conocimiento y batallas de cartas.Los resultados de las pruebas muestran que el segundo lugar, Claude, solo obtuvo 2.77 puntos, lo que aún es una gran diferencia. En cuanto a esos LLM de código abierto tan ruidosos, sus resultados de pruebas están alrededor de 1 punto, menos de 1/4 de GPT-4.Hay que saber que GPT-4 fue lanzado en marzo de este año, lo que representa un logro después de más de medio año de la competencia global. La causa de esta diferencia es el equipo de científicos de OpenAI, que tiene una "densidad de inteligencia" extremadamente alta y una larga experiencia acumulada en la investigación de LLM, lo que les permite estar siempre muy por delante.Es decir, la capacidad central de un gran modelo no son los parámetros, sino la construcción del ecosistema ) de código abierto ( o la pura capacidad de inferencia ) de código cerrado (.A medida que la comunidad de código abierto se vuelve cada vez más activa, el rendimiento de los LLM puede converger, ya que todos están utilizando arquitecturas de modelos y conjuntos de datos similares.Otro problema más intuitivo es: aparte de Midjourney, parece que ningún otro gran modelo ha podido ser rentable.## Punto de anclaje del valorEn agosto de este año, un artículo titulado "OpenAI podría declararse en quiebra a finales de 2024" ha llamado la atención. La esencia del artículo se puede resumir en una frase: OpenAI está quemando dinero demasiado rápido.El texto menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, con una pérdida de aproximadamente 540 millones de dólares solo en 2022, y solo pueden esperar que los inversores asuman los costos.Aunque el título del artículo es sensacionalista, refleja la situación de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.Los altos costos significan que actualmente solo Nvidia está ganando mucho dinero con la inteligencia artificial, y tal vez Broadcom también.Según estimaciones de la consultora, Nvidia vendió más de 300,000 unidades del H100 en el segundo trimestre de este año. Este es un chip de IA que tiene una eficiencia de entrenamiento de IA extremadamente alta, y las empresas tecnológicas y las instituciones de investigación de todo el mundo están compitiendo por adquirirlo. Estas 300,000 unidades del H100 apiladas juntas pesan lo mismo que 4.5 aviones Boeing 747.Las ganancias de Nvidia se dispararon, con un aumento interanual de los ingresos del 854%, lo que sorprendió a Wall Street. Cabe mencionar que actualmente el H100 se vende en el mercado de segunda mano por entre 40,000 y 50,000 dólares, pero su costo de materiales es de solo aproximadamente 3,000 dólares.Los altos costos de la potencia de cálculo se han convertido, en cierta medida, en un obstáculo para el desarrollo de la industria. Según un cálculo de un capital, se espera que las empresas tecnológicas de todo el mundo gasten anualmente 200 mil millones de dólares en la construcción de infraestructura para modelos grandes; en comparación, los modelos grandes pueden generar un máximo de 75 mil millones de dólares en ingresos al año, lo que deja al menos un déficit de 125 mil millones de dólares.Además, a excepción de unos pocos casos como Midjourney, la mayoría de las empresas de software, después de incurrir en enormes costos, aún no han encontrado un modelo de negocio rentable. Especialmente el desempeño de los dos grandes líderes de la industria: Microsoft y Adobe, no ha sido satisfactorio.La herramienta de generación de código AI GitHub Copilot, desarrollada en colaboración entre Microsoft y OpenAI, cobra 10 dólares al mes, pero debido a los costos de infraestructura, Microsoft en realidad pierde 20 dólares al mes. Los usuarios intensivos incluso pueden hacer que Microsoft pierda 80 dólares al mes. Por lo tanto, se estima que el Microsoft 365 Copilot, que tiene un precio de 30 dólares, podría tener pérdidas aún mayores.Igualmente, Adobe, que acaba de lanzar la herramienta Firefly AI, rápidamente implementó un sistema de puntos complementario para evitar que los usuarios lo usen en exceso y causen pérdidas a la empresa. Una vez que los usuarios superen los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.Es importante saber que Microsoft y Adobe ya son gigantes del software con escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras tanto, la mayoría de los grandes modelos, que acumulan parámetros como montañas, todavía tienen como principal escenario de aplicación el chat.No se puede negar que sin la aparición de OpenAI y ChatGPT, esta revolución de la IA podría no haber ocurrido en absoluto; pero en la actualidad, el valor que aporta el entrenamiento de grandes modelos probablemente merece un signo de interrogación.Además, con la intensificación de la competencia homogeneizada y el aumento de modelos de código abierto, el espacio de supervivencia de los proveedores de grandes modelos podría reducirse aún más.La popularidad del iPhone 4 no se debe al procesador A4 de 45 nm, sino a que puede jugar a Plants vs. Zombies y Angry Birds.

StableGeniusDegen · Accepted Answer

Tsk, varios grandes modelos están muy activos.

consensus_whisperer · Answer

Competir en las clasificaciones es como jugar.

FallingLeaf · Answer

Quién va a ganar todavía no está claro.

OnChain_Detective · Answer

el análisis de patrones muestra la competencia entre llama y halcón que presenta riesgos de seguridad clásicos... mantente alerta familia

SnapshotStriker · Answer

Vamos a jugar juntos en la línea.

PrivateKeyParanoia · Answer

¿Quién es el jefe en el zoológico?

LightningPacketLoss · Answer

Tu gran modelo juega lo tuyo, yo juego lo mío.