El lanzamiento de ChatGPT, GPT-4, etc., nos permite ver el encanto del modelo grande (LLM), acompañado de varios desafíos que enfrenta.
Fuente de la imagen: Generada por IA ilimitada
¿Cómo mejorar el LLM? Ante modelos grandes, ¿qué problemas hay que solucionar? Se ha convertido en un importante tema de investigación en el campo de la IA.
En este artículo, el informático Chip Huyen parte de 10 aspectos y expone de manera integral los desafíos que enfrenta el LLM. Específicamente, los dos primeros aspectos tienen que ver con alucinaciones y aprendizaje contextual, y varios otros aspectos incluyen, entre otros, multimodalidad, arquitectura, búsqueda de alternativas de GPU, etc.
Direccion original:
La siguiente es una traducción del texto original.
1. Cómo reducir las alucinaciones
El problema de las alucinaciones ocurre cuando el texto generado por el LLM es fluido y natural, pero no fiel a la fuente del contenido (problema intrínseco) y/o incierto (problema extrínseco). Este problema existe ampliamente en LLM.
Por tanto, es muy importante aliviar las alucinaciones y desarrollar indicadores para medir las alucinaciones, y muchas empresas e instituciones están prestando atención a este tema. Chip Huyen dijo que hay muchas maneras de reducir las alucinaciones en esta etapa, como agregar más contexto a la indicación, usar cadenas de pensamiento o hacer que la respuesta del modelo sea más concisa.
Los materiales a los que se puede hacer referencia incluyen:
2. Optimice la longitud y la estructura del contexto
Otro foco de investigación de LLM es la longitud del contexto, porque el modelo grande necesita hacer referencia al contexto al responder las preguntas de los usuarios, y cuanto mayor sea la longitud que se pueda procesar, más útil será para LLM. Por ejemplo, le preguntamos a ChatGPT “¿Cuál es el mejor restaurante vietnamita?” Ante esta pregunta, ChatGPT necesita consultar el contexto para averiguar si el usuario está preguntando por el mejor restaurante vietnamita de Vietnam o por el mejor restaurante vietnamita de Estados Unidos. Estados Unidos, no es lo mismo.
En esta subsección, Chip Huyen presenta varios artículos relacionados.
El primero es “SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA”, ambos autores son de la Universidad de Texas en Austin. El documento presenta un conjunto de datos de control de calidad de recuperación abierta SITUATEDQA, y los lectores interesados pueden consultarlo para obtener más información.
Chip Huyen afirmó que debido a que el modelo aprende del contexto proporcionado, este proceso se denomina aprendizaje contextual.
El segundo artículo es “Generación retri-aumentada para tareas de PNL intensivas en conocimiento”, que propone RAG (generación retri-aumentada), que puede combinar modelos de lenguaje previamente entrenados y conocimiento externo para lograr respuestas generativas de preguntas de dominio abierto y otros conocimientos. Tareas intensivas.
El proceso de operación de RGA se divide en dos fases: la fase de fragmentación (también conocida como recuperación) y la fase de consulta:
Mucha gente piensa, basándose en esta investigación, que cuanto más largo sea el contexto, más información acumulará el modelo y mejor será su respuesta. Chip Huyen cree que esta afirmación no es del todo cierta.
Cuánto contexto puede usar un modelo y con qué eficiencia un modelo usa el contexto son dos preguntas completamente diferentes. Lo que tenemos que hacer es aumentar la eficiencia del contexto de procesamiento del modelo en paralelo mientras aumentamos la longitud del contexto del modelo. Por ejemplo, en el artículo “Perdido en el medio: cómo los modelos de lenguaje utilizan contextos largos”, el artículo describe cómo el modelo puede comprender mejor la información al principio y al final del índice, en lugar de la información del medio.
3.Multimodal
Chip Huyen cree que la multimodalidad es muy importante.
En primer lugar, ámbitos como la atención sanitaria, la robótica, el comercio electrónico, el comercio minorista, los juegos, el entretenimiento, etc. requieren datos multimodales. Por ejemplo, la predicción médica requiere contenido de texto, como notas del médico y cuestionarios de pacientes, así como información de imágenes como tomografías computarizadas, rayos X y resonancias magnéticas.
En segundo lugar, la multimodalidad promete mejorar enormemente el rendimiento del modelo, ya que los modelos que pueden comprender tanto texto como imágenes funcionan mejor que los modelos que solo pueden comprender texto. Sin embargo, los modelos basados en texto exigen tanto texto que la gente está empezando a preocuparse de que pronto nos quedemos sin datos de Internet para entrenar modelos. Una vez agotado el texto, debemos considerar otras modalidades de datos.
Diagrama de arquitectura de flamencos
En cuanto a la multimodalidad, puedes consultar los siguientes contenidos:
4. Haz LLM más rápido y más barato
GPT-3.5 se lanzó por primera vez a finales de noviembre de 2022 y muchas personas están preocupadas por el alto costo de uso. Sin embargo, en solo medio año, la comunidad ha encontrado un modelo que se acerca al GPT-3.5 en términos de rendimiento, y el consumo de memoria requerido es solo el 2% del GPT-3.5.
Chip Huyen dijo que si creas algo lo suficientemente bueno, la gente pronto encontrará una manera de hacerlo rápido y barato.
La siguiente es una comparación de rendimiento del Guanaco 7B con modelos como ChatGPT y GPT-4. Pero debemos enfatizar que es muy difícil evaluar LLM.
Luego, Chip Huyen enumeró técnicas de optimización y compresión de modelos:
Los cuatro métodos anteriores siguen siendo populares, como entrenar a Alpaca con destilación de conocimientos y QLoRA que combina descomposición y cuantificación de bajo rango.
5. Diseñar una nueva arquitectura de modelo
Desde el lanzamiento de AlexNet en 2012, muchas arquitecturas, incluidas LSTM y seq2seq, se hicieron populares y luego quedaron obsoletas. A diferencia de eso, Transformer es increíblemente pegajoso. Existe desde 2017 y todavía se usa ampliamente hasta ahora. Es difícil estimar cuánto tiempo será popular esta arquitectura.
Sin embargo, no es fácil desarrollar una arquitectura completamente nueva que supere a Transformer. En los últimos 6 años, los investigadores han realizado muchas optimizaciones en Transformer. Además de la arquitectura del modelo, también incluye optimización a nivel de hardware.
El laboratorio dirigido por el informático estadounidense Chris Ré ha realizado muchas investigaciones sobre S4 en 2021. Para obtener más información, consulte el artículo “Modelado eficiente de secuencias largas con espacios de estados estructurados”. Además, el laboratorio Chris Ré ha invertido mucho en el desarrollo de nuevas arquitecturas y recientemente se asoció con la startup Together para desarrollar la arquitectura Monarch Mixer.
Su idea clave es que para la arquitectura Transformer existente, la complejidad de la atención es la cuadrática de la longitud de la secuencia, mientras que la complejidad de MLP es la cuadrática de la dimensión del modelo, y la arquitectura con baja complejidad será más eficiente.
6. Desarrollar alternativas de GPU
Las GPU han dominado el aprendizaje profundo desde el lanzamiento de AlexNet en 2012. De hecho, una razón bien reconocida de la popularidad de AlexNet es que fue el primer artículo que entrenó con éxito una red neuronal utilizando GPU. Antes de la aparición de las GPU, si querías entrenar un modelo del tamaño de AlexNet, tenías que usar miles de CPU, y unas pocas GPU podían hacerlo.
Durante la última década, tanto las grandes corporaciones como las nuevas empresas han intentado crear nuevo hardware para la inteligencia artificial. Los más representativos incluyen, entre otros, la TPU de Google, la IPU de Graphcore y la empresa de chips de inteligencia artificial Cerebras. Además, la startup de chips de IA SambaNova recaudó más de mil millones de dólares para desarrollar nuevos chips de IA.
Otra dirección interesante son los chips fotónicos, que utilizan fotones para mover datos, lo que permite una computación más rápida y eficiente. Varias nuevas empresas en este espacio han recaudado cientos de millones de dólares, incluidas Lightmatter ($270 millones), Ayar Labs ($220 millones), Lightelligence ($200 millones+) y Luminous Compute ($115 millones).
La siguiente es una línea de tiempo del progreso de los tres enfoques principales en la computación matricial fotónica, tomada del artículo “La multiplicación de matrices fotónicas ilumina el acelerador fotónico y más allá”. Los tres métodos son la conversión de luz plana (PLC), el interferómetro de Mach-Zehnder (MZI) y la multiplexación por división de longitud de onda (WDM).
7. Hacer que los agentes sean más utilizables
Los agentes son LLM que pueden realizar acciones como navegar por Internet, enviar correos electrónicos, reservar una habitación, etc. En comparación con otras direcciones de investigación de este artículo, esta dirección apareció relativamente tarde y es muy nueva para todos.
Es por su novedad y su gran potencial que todo el mundo tiene una loca obsesión por los agentes inteligentes. Auto-GPT es actualmente el proyecto número 25 más popular en GitHub. GPT-Engineering es otro proyecto muy popular.
Si bien esto es esperado y emocionante, sigue siendo dudoso que LLM sea lo suficientemente confiable y eficaz como para tener el derecho de actuar.
Sin embargo, un caso de aplicación que ya ha aparecido es el de aplicar agentes a la investigación social. Hace algún tiempo, Stanford abrió la “ciudad virtual” Smallville. En la ciudad vivían 25 agentes de IA, que tienen trabajos, pueden chismorrear y pueden organizar actividades sociales. actividades, hacer nuevos amigos e incluso organizar una fiesta del Día de San Valentín, cada habitante de la ciudad tiene una personalidad y una historia de fondo únicas.
Para obtener más detalles, consulte los siguientes documentos.
Dirección del papel:
Probablemente la startup más famosa en este espacio sea Adept, fundada por dos coautores de Transformer y un ex vicepresidente de OpenAI, y ha recaudado casi 500 millones de dólares hasta la fecha. El año pasado, hicieron una demostración que mostraba cómo su agente podía navegar por Internet y agregar una nueva cuenta a Salesforce.
, duración 03:30
8. Aprendizaje mejorado a partir de las preferencias humanas
RLHF significa Aprendizaje por refuerzo a partir de preferencias humanas. No sería sorprendente que la gente encontrara otras formas de formar LLM, después de todo, RLHF todavía tiene muchos problemas que resolver. Chip Huyen enumeró los siguientes 3 puntos.
**¿Cómo representar matemáticamente las preferencias humanas? **
Actualmente, las preferencias humanas se determinan por comparación: los anotadores humanos determinan si la respuesta A es mejor que la respuesta B, pero no consideran cuánto mejor es la respuesta A que la respuesta B.
**¿Cuáles son las preferencias humanas? **
Anthropic mide la calidad de respuesta de sus modelos en tres ejes: utilidad, honestidad e inocencia.
Dirección del papel:
DeepMind también intenta generar respuestas que satisfagan a la mayoría. Vea este documento a continuación.
Dirección del papel:
Pero para ser claros, ¿queremos una IA que pueda tomar una postura, o una IA genérica que evite temas potencialmente controvertidos?
**¿De quién son las preferencias de las “personas”? **
Dadas las diferencias culturales, religiosas, etc., existen muchos desafíos para obtener datos de capacitación que representen adecuadamente a todos los usuarios potenciales.
Por ejemplo, en los datos InstructGPT de OpenAI, los etiquetadores son principalmente filipinos y bangladesíes, lo que puede causar alguna desviación debido a diferencias geográficas.
Fuente:
La comunidad de investigadores también está trabajando en esto, pero persiste el sesgo en los datos. Por ejemplo, en la distribución demográfica del conjunto de datos de OpenAssistant, 201 de los 222 encuestados (90,5%) eran hombres.
9. Mejorar la eficiencia de la interfaz de chat
Desde ChatGPT, ha habido muchas discusiones sobre si el chat es adecuado para diversas tareas. Por ejemplo estas discusiones:
Sin embargo, estas discusiones no son nuevas. Muchos países, especialmente en Asia, han utilizado el chat como interfaz para súper aplicaciones durante aproximadamente una década.
En 2016, cuando muchos pensaban que las aplicaciones estaban muertas y que los chatbots eran el futuro, la discusión volvió a ponerse tensa:
Chip Huyen dijo que le gusta mucho la interfaz de chat por las siguientes razones:
Sin embargo, Chip Huyen cree que la interfaz de chat deja margen de mejora en algunas áreas. Tiene las siguientes sugerencias
Actualmente, se cree que sólo se puede enviar un mensaje por ronda. Pero no es así como la gente envía mensajes de texto en la vida real. Por lo general, se requieren múltiples piezas de información para completar la idea de un individuo, porque es necesario insertar diferentes datos (como imágenes, ubicaciones, enlaces) en el proceso, y es posible que el usuario se haya perdido algo en la información anterior, o simplemente no lo haga. quieres incluir todo Escríbelo en un párrafo largo.
En el ámbito de las aplicaciones multimodales, la mayor parte del esfuerzo se dedica a construir mejores modelos y poco a construir mejores interfaces. En el caso del chatbot NeVA de Nvidia, puede haber margen para mejorar la experiencia del usuario.
DIRECCIÓN:
Linus Lee lo expresa bien en su charla “Interfaces generadas por IA más allá del chat”. Por ejemplo, si desea hacer una pregunta sobre una columna de un gráfico en el que está trabajando, debería poder señalar esa columna y preguntar.
Dirección del vídeo:
Vale la pena pensar en cómo editar o eliminar la entrada del usuario puede cambiar el flujo de una conversación con un chatbot.
10. Creación de un LLM para idiomas distintos del inglés
Los LLM actuales para inglés como primer idioma no se adaptan bien a otros idiomas en términos de rendimiento, latencia y velocidad. El contenido relacionado puede leer los siguientes artículos:
Dirección del papel:
Dirección del artículo:
Chip Huyen dijo que varios de los primeros lectores de este artículo le dijeron que pensaban que esta dirección no debería incluirse por dos razones.
Dirección del papel:
Dirección del papel:
No está claro el impacto de las herramientas de inteligencia artificial, como la traducción automática y los chatbots, en el aprendizaje de idiomas. Se desconoce si ayudan a las personas a aprender nuevos idiomas más rápido o eliminan por completo la necesidad de aprender nuevos idiomas.
Resumir
Los problemas mencionados en este documento también tienen diferentes niveles de dificultad, como el último problema, si puede encontrar suficientes recursos y tiempo, es posible construir un LLM para idiomas distintos del inglés.
Uno de los primeros problemas es reducir las alucinaciones, lo cual será mucho más difícil, porque las alucinaciones son simplemente LLM haciendo cosas probabilísticas.
El cuarto problema es hacer que el LLM sea más rápido y más barato, y esto no se resolverá por completo. Se han logrado algunos avances en esta área y habrá más avances en el futuro, pero nunca mejoraremos a la perfección.
Los temas quinto y sexto son las nuevas arquitecturas y el nuevo hardware, lo cual es muy desafiante, pero inevitable con el tiempo. Debido a la relación simbiótica entre arquitectura y hardware, donde las nuevas arquitecturas deben optimizarse para hardware de uso general y las necesidades de hardware para soportar arquitecturas de propósito general, este problema podría ser resuelto por la misma empresa.
También hay problemas que no se pueden resolver únicamente con conocimientos técnicos. Por ejemplo, el octavo problema de mejorar los métodos para aprender de las preferencias humanas puede ser más una cuestión de política que técnica. Hablando de la novena pregunta, mejorar la eficiencia de la interfaz, esto se parece más a un problema de experiencia del usuario y se necesitan más personas sin experiencia técnica para resolver este problema juntos.
Si desea analizar estos problemas desde otros ángulos, Chip Huyen recomienda leer el siguiente artículo.
Dirección del papel: