Fuente: OpenAIFuente: OpenAIFuente: OpenAI**OpenAI**OpenAI ha lanzado oficialmente GPT-Realtime y la API de tiempo real renovada, ofreciendo un potente modelo de voz a voz todo en uno diseñado para transformar las interacciones basadas en voz en aplicaciones empresariales.** La actualización marca el cambio a disponibilidad general, Soltando la necesidad de cadenas separadas de voz a texto y de texto a voz e introduciendo características como entrada de imagen, llamadas telefónicas SIP y acceso a herramientas externas. La nueva oferta está optimizada para el uso en el mundo real, mejorando la naturalidad de las respuestas mientras simplifica la integración para el soporte al cliente, asistentes y plataformas educativas.
**OpenAI ha lanzado oficialmente GPT-Realtime y la API de Realtime renovada, ofreciendo un potente modelo de voz a voz todo en uno diseñado para transformar las interacciones basadas en voz en aplicaciones empresariales.OpenAIGPT-RealtimeCaracterísticas
¡La API en tiempo real ya está oficialmente fuera de beta y lista para tus agentes de voz en producción!
También estamos presentando gpt-realtime—nuestro modelo de voz a voz más avanzado hasta ahora—además de nuevas voces y capacidades de API:
— Desarrolladores de OpenAI (@OpenAIDevs) 28 de agosto de 2025
¡La API de Realtime está oficialmente fuera de beta y lista para tus agentes de voz de producción!
También estamos presentando gpt-realtime, nuestro modelo de voz a voz más avanzado hasta ahora, además de nuevas voces y capacidades de API:
MCPs remotos
️ Entrada de imagen
Llamada de teléfono SIP
️ Prompts reutilizables pic.twitter.com/fX5yvt0CDD
¿Qué es GPT-Realtime y por qué es importante?
GPT‑Realtime es un modelo de voz a voz que maneja la entrada y salida de audio directamente, eludiendo los tradicionales pipelines multimodales. Este enfoque de modelo único reduce significativamente la latencia, captura la matiz vocal (por ejemplo, pausas, tono, risa), y ofrece respuestas naturales y expresivas. La API de Realtime, ahora lista para producción, incluye capacidades añadidas como entrada de imagen, soporte de teléfono SIP, herramientas del Protocolo de Contexto del Modelo (MCP), y mensajes reutilizables. OpenAI entrenó el modelo estrechamente con los clientes para sobresalir en dominios prácticos como soporte al cliente, asistencia personal y educación.
El modelo muestra mejoras notables en la precisión de seguimiento de instrucciones ( aumentando de aproximadamente 65.6% a 82.8%) y en la calidad de voz. Con la introducción de dos nuevas voces, "Cedar" y "Marin", las interacciones se sienten más realistas y atractivas. Importante, OpenAI ha reducido los precios en aproximadamente un 20%, con tarifas de aproximadamente $32 por millón de tokens de entrada de audio y $64 por millón de tokens de salida, haciendo que la IA de voz de alto rendimiento sea más rentable para las empresas.
Construido para Negocios: Casos de Uso en el Mundo Real
OpenAI enfatiza la alineación del modelo con el uso práctico en empresas. Al fomentar el procesamiento de audio directo y permitir la integración de herramientas, los desarrolladores ahora pueden crear agentes de voz receptivos para tareas como soporte al cliente en vivo, tutoría, asistencia virtual y más. La adición de la funcionalidad de llamadas telefónicas SIP es particularmente significativa para los despliegues en centros de llamadas, permitiendo una transición fluida entre la IA y los sistemas de telefonía tradicionales.
GPT‑Realtime se basa en el legado de GPT‑4o ( "o" por "omni" ), lanzado en mayo de 2024. GPT‑4o introdujo verdaderas capacidades multimodales, procesando texto, audio y visión, con soporte de voz nativo y impresionantes benchmarks de rendimiento. Soportaba más de 50 idiomas y permitía la personalización fina para la customización corporativa. El lanzamiento de la API Realtime en octubre de 2024 marcó las primeras etapas de la interacción por voz, que ahora ha madurado significativamente a través de las mejoras de hoy.
Conclusión
GPT-Realtime representa un avance fundamental en las aplicaciones de voz impulsadas por IA, combinando baja latencia, habla natural y acceso ampliado a herramientas en una única API lista para negocios. Con métricas de rendimiento mejoradas, costos reducidos y características de integración prácticas, la actualización ofrece un valor sustancial para las organizaciones que desarrollan agentes de voz, sistemas de soporte al cliente y herramientas de aprendizaje interactivas.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La nueva API de voz GPT-Realtime de OpenAI para la automatización empresarial
**OpenAI ha lanzado oficialmente GPT-Realtime y la API de Realtime renovada, ofreciendo un potente modelo de voz a voz todo en uno diseñado para transformar las interacciones basadas en voz en aplicaciones empresariales.OpenAIGPT-RealtimeCaracterísticas
¡La API de Realtime está oficialmente fuera de beta y lista para tus agentes de voz de producción!
También estamos presentando gpt-realtime, nuestro modelo de voz a voz más avanzado hasta ahora, además de nuevas voces y capacidades de API:
MCPs remotos ️ Entrada de imagen Llamada de teléfono SIP ️ Prompts reutilizables pic.twitter.com/fX5yvt0CDD
¿Qué es GPT-Realtime y por qué es importante?
GPT‑Realtime es un modelo de voz a voz que maneja la entrada y salida de audio directamente, eludiendo los tradicionales pipelines multimodales. Este enfoque de modelo único reduce significativamente la latencia, captura la matiz vocal (por ejemplo, pausas, tono, risa), y ofrece respuestas naturales y expresivas. La API de Realtime, ahora lista para producción, incluye capacidades añadidas como entrada de imagen, soporte de teléfono SIP, herramientas del Protocolo de Contexto del Modelo (MCP), y mensajes reutilizables. OpenAI entrenó el modelo estrechamente con los clientes para sobresalir en dominios prácticos como soporte al cliente, asistencia personal y educación.
El modelo muestra mejoras notables en la precisión de seguimiento de instrucciones ( aumentando de aproximadamente 65.6% a 82.8%) y en la calidad de voz. Con la introducción de dos nuevas voces, "Cedar" y "Marin", las interacciones se sienten más realistas y atractivas. Importante, OpenAI ha reducido los precios en aproximadamente un 20%, con tarifas de aproximadamente $32 por millón de tokens de entrada de audio y $64 por millón de tokens de salida, haciendo que la IA de voz de alto rendimiento sea más rentable para las empresas.
Construido para Negocios: Casos de Uso en el Mundo Real
OpenAI enfatiza la alineación del modelo con el uso práctico en empresas. Al fomentar el procesamiento de audio directo y permitir la integración de herramientas, los desarrolladores ahora pueden crear agentes de voz receptivos para tareas como soporte al cliente en vivo, tutoría, asistencia virtual y más. La adición de la funcionalidad de llamadas telefónicas SIP es particularmente significativa para los despliegues en centros de llamadas, permitiendo una transición fluida entre la IA y los sistemas de telefonía tradicionales.
GPT‑Realtime se basa en el legado de GPT‑4o ( "o" por "omni" ), lanzado en mayo de 2024. GPT‑4o introdujo verdaderas capacidades multimodales, procesando texto, audio y visión, con soporte de voz nativo y impresionantes benchmarks de rendimiento. Soportaba más de 50 idiomas y permitía la personalización fina para la customización corporativa. El lanzamiento de la API Realtime en octubre de 2024 marcó las primeras etapas de la interacción por voz, que ahora ha madurado significativamente a través de las mejoras de hoy.
Conclusión
GPT-Realtime representa un avance fundamental en las aplicaciones de voz impulsadas por IA, combinando baja latencia, habla natural y acceso ampliado a herramientas en una única API lista para negocios. Con métricas de rendimiento mejoradas, costos reducidos y características de integración prácticas, la actualización ofrece un valor sustancial para las organizaciones que desarrollan agentes de voz, sistemas de soporte al cliente y herramientas de aprendizaje interactivas.
Características