Новый API голосового взаимодействия GPT-Realtime от OpenAI для автоматизации бизнеса

Новый GPT-Голосовой API от OpenAI для автоматизации бизнесаИсточник: OpenAIНовый GPT-Голосовой API от OpenAI для автоматизации бизнесаИсточник: OpenAIИсточник: OpenAI**OpenAI**OpenAI официально представила GPT-Голосовой и обновленный Realtime API, предлагая мощную универсальную модель преобразования речи в речь, предназначенную для трансформации голосовых взаимодействий в бизнес-приложениях.** Обновление знаменует переход к общему доступу, устраняя необходимость в отдельных цепочках преобразования речи в текст и текста в речь и вводя такие функции, как ввод изображений, звонки по SIP и доступ к внешним инструментам. Новая версия оптимизирована для реального использования, улучшая естественность ответов и упрощая интеграцию для поддержки клиентов, помощников и образовательных платформ.

**OpenAI официально запустил GPT-Realtime и обновленный Realtime API, предлагая мощную, универсальную модель преобразования речи в речь, предназначенную для трансформации голосовых взаимодействий в бизнес-приложениях.OpenAIGPT-RealtimeОсобенности

Realtime API официально вышел из бета-версии и готов к использованию для ваших производственных голосовых агентов!

Мы также представляем gpt-realtime — нашу самую продвинутую модель преобразования речи в речь на сегодняшний день — а также новые голоса и возможности API:

Удаленные MCPs
️ Ввод изображения SIP телефонный звонок
️ Повторно используемые подсказки pic.twitter.com/fX5yvt0CDD

— OpenAI Разработчики (@OpenAIDevs) 28 августа 2025 года

Realtime API официально вышел из бета-версии и готов к использованию для ваших производственных голосовых агентов!

Мы также представляем gpt-realtime — нашу самую продвинутую модель преобразования речи в речь на сегодняшний день — а также новые голоса и возможности API:

Удаленные MCPs
️ Ввод изображения SIP телефонный звонок
️ Повторно используемые подсказки pic.twitter.com/fX5yvt0CDD

— OpenAI Разработчики (@OpenAIDevs) 28 августа 2025 года

Realtime API официально вышел из бета-версии и готов для ваших производственных голосовых агентов!

Мы также представляем gpt-realtime — нашу самую продвинутую модель речевого взаимодействия — а также новые голоса и возможности API:

Удаленные MCPs ️ Ввод изображения SIP телефонный звонок
️ Повторно используемые подсказки pic.twitter.com/fX5yvt0CDD

Что такое GPT-Realtime и почему это важно

GPT‑Realtime — это модель преобразования речи в речь, которая обрабатывает аудиовход и аудиовыход напрямую, обходя традиционные многомодельные конвейеры. Этот подход с одной моделью значительно уменьшает задержку, захватывает нюансы речи (например, паузы, тон, смех) и предоставляет естественные, выразительные ответы. API Realtime, теперь готовый к производству, включает дополнительные возможности, такие как ввод изображения, поддержка SIP-телефонов, удаленные инструменты Model Context Protocol (MCP) и повторно используемые подсказки. OpenAI обучила модель в тесном сотрудничестве с клиентами, чтобы добиться успеха в практических областях, таких как поддержка клиентов, персональная помощь и образование.

Модель показывает значительные улучшения в точности выполнения инструкций (, увеличиваясь с примерно 65,6% до 82,8%) и качестве голоса. С введением двух новых голосов, "Кедр" и "Марин", взаимодействия становятся более живыми и увлекательными. Важно, что OpenAI снизила цены примерно на 20%, с тарифами около $32 за миллион токенов аудиовхода и $64 за миллион токенов аудиовыхода, что делает высокопроизводственный голосовой ИИ более экономически эффективным для предприятий.

Создан для бизнеса: реальные примеры использования

OpenAI подчеркивает соответствие модели практическому использованию в бизнесе. Путем содействия прямой обработке аудио и интеграции инструментов разработчики теперь могут создавать отзывчивых голосовых агентов для задач, таких как прямая поддержка клиентов, репетиторство, виртуальная помощь и многое другое. Добавление функции SIP телефонных звонков особенно важно для развертывания в колл-центрах, позволяя бесшовную передачу между ИИ и традиционными телефонными системами.

GPT‑Realtime строится на наследии GPT‑4o (“o” для “omni”), запущенного в мае 2024 года. GPT‑4o представил настоящие мультимодальные возможности, обрабатывая текст, аудио и визуальные данные, с нативной поддержкой голоса и впечатляющими показателями производительности. Он поддерживал более 50 языков и позволял тонкую настройку для корпоративной кастомизации. Выпуск API Realtime в октябре 2024 года стал начальной стадией голосового взаимодействия, которое теперь значительно усовершенствовано благодаря сегодняшним улучшениям.

Заключение

GPT-Realtime представляет собой важное достижение в области голосовых приложений на базе ИИ, объединяя низкую задержку, естественную речь и расширенный доступ к инструментам в одном готовом для бизнеса API. С улучшенными показателями производительности, снижением затрат и практическими интеграционными функциями, обновление предлагает значительную ценность для организаций, разрабатывающих голосовых агентов, системы поддержки клиентов и интерактивные учебные инструменты.

Функции

GPT-7.01%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить