OpenAI Revela Modelo GPT-Realtime de Fala-Para-Fala com Suporte Multimodal e Capacidades Avançadas de Conversação

Em Resumo

A OpenAI lançou o modelo de fala-para-fala gpt-realtime com suporte multimodal, habilidades de conversação avançadas e forte desempenho em raciocínio auditivo.

OpenAI Revela Modelo GPT-Realtime de Fala-Para-Fala com Suporte Multimodal e Capacidades Avançadas de Conversação

A organização de pesquisa em inteligência artificial OpenAI anunciou a disponibilidade geral da sua API Realtime, agora aprimorada com recursos que permitem a desenvolvedores e empresas construir agentes de voz robustos e prontos para produção. A API suporta servidores MCP remotos, entradas de imagem e chamadas telefônicas via Protocolo de Iniciação de Sessão (SIP), permitindo aplicações de voz mais capazes e cientes do contexto.

Juntamente com a API, a OpenAI lançou seu modelo de fala-para-fala mais avançado, gpt-realtime, projetado para melhorar o seguimento de instruções, chamadas de função e fala com som natural. O modelo pode interpretar prompts complexos, mudar de idioma no meio da frase, reproduzir sequências alfanuméricas com precisão e capturar sinais não verbais. Duas novas vozes, Cedar e Marin, também estão disponíveis, oferecendo uma entonação mais expressiva e semelhante à humana. As vozes existentes foram atualizadas para incorporar essas melhorias.

A API em Tempo Real processa áudio diretamente através de um único modelo, reduzindo a latência e preservando a nuance, ao contrário dos pipelines tradicionais que encadeiam modelos separados de fala-para-texto e texto-para-fala. gpt-realtime foi treinada em colaboração com os usuários para se destacar em aplicações do mundo real, como suporte ao cliente, assistência pessoal e educação. Avaliações de benchmark mostram melhorias substanciais em raciocínio, adesão a instruções e precisão na chamada de funções em comparação com modelos anteriores.

Atualizações adicionais incluem a chamada de funções assíncronas, permitindo operações de longa duração sem interromper conversas em andamento, apoiando ainda mais experiências de voz contínuas e prontas para produção.

OpenAI Expande a API em Tempo Real com Suporte MCP, Entradas de Imagem, Integração SIP e Controles de Redução de Custos para Agentes de Voz

A API em tempo real da OpenAI agora inclui novos recursos projetados para simplificar a integração e expandir as capacidades para agentes de voz prontos para produção. Os desenvolvedores podem habilitar o suporte remoto MCP vinculando uma sessão a uma URL do servidor MCP, permitindo que a API gerencie chamadas de ferramentas automaticamente e acesse funcionalidades adicionais sem configuração manual.

O modelo gpt-realtime agora suporta entradas de imagem, permitindo que o sistema incorpore fotos, capturas de tela e outros visuais juntamente com áudio ou texto. Isso permite que os usuários façam perguntas específicas sobre o que veem, enquanto os desenvolvedores mantêm o controle sobre quais imagens são compartilhadas e quando.

Melhorias adicionais incluem suporte para o Protocolo de Iniciação de Sessão (SIP) para conectar aplicativos a redes telefônicas e sistemas PBX, bem como prompts reutilizáveis que permitem aos desenvolvedores salvar e implantar instruções pré-configuradas, ferramentas e mensagens de exemplo em múltiplas sessões.

A API Realtime geralmente disponível e o modelo gpt-realtime estão agora acessíveis a todos os desenvolvedores, com preços reduzidos em 20% em comparação com o anterior gpt-4o-realtime-preview. Novos controles para o contexto da conversa permitem uma gestão de tokens mais inteligente, reduzindo os custos para sessões prolongadas. Documentação, um Playground para testes e um guia de prompts da API Realtime estão disponíveis para apoiar os desenvolvedores na adoção dessas funcionalidades.

GPT-5.05%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)