Голосовой GPT в 2026: разбор 3 новых моделей OpenAI Realtime

OpenAI выпустила 7 мая GPT-Realtime-2 (GPT-5-уровня), Translate (70→13 яз) и Whisper (streaming). Разберём модели, цены в ₽ и как использовать в России.

21 мая 202610 минут чтенияавтор Михаил Воинский, основатель Диктуй

Коротко

7 мая 2026 OpenAI выпустила три голосовые модели API. GPT-Realtime-2 — voice-агент с GPT-5 reasoning, контекст 128K, около 1 ₽/секунда разговора. Realtime-Translate синхронит 70+ языков в 13 за $0,034/мин. Realtime-Whisper — streaming speech-to-text за $0,017/мин. Доступ из РФ через российских агрегаторов API (ProxyAPI, GenAPI, AITunnel) с рублёвой оплатой. Для готового desktop-клиента на Whisper Large-v3-turbo без кода — Диктуй на Win и Mac.

Что выпустила OpenAI 7 мая 2026

7 мая OpenAI выпустила сразу три новые голосовые модели в одном релизе. GPT-Realtime-2 с GPT-5-class reasoning заняла место предыдущей gpt-realtime-1.5 как production-default для voice-агентов. Параллельно появились GPT-Realtime-Translate — синхронный перевод 70+ языков в 13, и GPT-Realtime-Whisper — потоковая транскрипция, выдающая текстовые дельты по мере того, как собеседник говорит, а не после завершения фразы.

Все три уже доступны через Realtime API, цены опубликованы. Российская аудитория к 21 мая видела только news-разборы на Habr, 3dnews и ai-stat.ru — практического руководства по тому, как эти модели применить из РФ без VPN и куда они окупаются, в открытом доступе пока нет. Этот гайд закрывает пробел.

Дисклеймер: я делаю Диктуй — российский voice-typing сервис на Whisper Large-v3-turbo через Groq. В статье разбираю API-релиз OpenAI, не свой продукт. Диктуй упомянут только в разделе про готовые desktop-инструменты для тех, кому не нужна собственная разработка voice-агента. 80% статьи — про новые модели OpenAI: их архитектуру, цены, сценарии использования, доступ из РФ.

Стоимость минуты обработки аудио в API OpenAI и Groq в 2026: Whisper Large-v3-turbo через Groq 0,06 ₽, Realtime-Whisper 1,56 ₽, Realtime-Translate 3,13 ₽, Realtime-2 (voice agent) 99 ₽, gpt-realtime-1.5 99 ₽ — по логарифмической шкале

Разница между Whisper Large-v3-turbo через Groq и GPT-Realtime-2 — три порядка по цене. Это не альтернативы друг другу — это инструменты под разные задачи: один батчевая транскрипция, второй живой voice-агент с reasoning. Дальше разберём каждый.

GPT-Realtime-2 — voice-агент с GPT-5 reasoning

Главное отличие Realtime-2 от предыдущей gpt-realtime-1.5 — режим reasoning, повышающий точность модели в задачах на логику, математику и поиск сложных ответов. На бенчмарке Big Bench Audio Realtime-2 показала 96,6% против 81,4% у предыдущей версии — прирост 15,2 пункта (см. latent.space разбор).

Архитектурный contour: контекст увеличен с 32K до 128K токенов (в четыре раза больше). Это значит, что voice-агент удерживает длинный разговор без потери ранних деталей — например, в техподдержке клиент в 10-й минуте может ссылаться на то, что говорил во 2-й, и Realtime-2 это вспомнит. У 1.5 на длинном разговоре регулярно «забывалась» начальная часть.

Цена: $32 за миллион входных аудио-токенов, $64 за миллион выходных, $0,40 за миллион кэшированных input — что в 80 раз дешевле обычного input. Средний разговор voice-агента 50/50 input/output → около $1 за минуту активного разговора. По курсу 92 ₽/$ это 92 ₽ за минуту. Для прототипа OK, для коммерческого voice-агента в продакшене с тысячами минут в день — без оптимизации каskading нерентабельно.

Когда Realtime-2 окупается:

Voice-агент с reasoning поверх FAQ (техподдержка e-commerce, медицинский ассистент)
Образовательный tutor с многошаговой логикой
Голосовой co-pilot в IDE с пониманием контекста проекта
HR-первичный скрининг с структурированным интервью

Когда не окупается:

Простая транскрипция без диалога — берите Whisper API ($0,006/мин)
Voice-typing для пользователя в Word/Cursor — Whisper Large-v3-turbo через Groq в 1500 раз дешевле
Чат-бот без reasoning — обычный gpt-realtime-1.5 пока дешевле для базовых сценариев

GPT-Realtime-Translate — синхронный перевод 70 → 13

Translate — первая production-ready модель синхронного перевода от OpenAI. Принимает аудио на одном из 70+ входных языков, отдаёт стрим аудио + текст на одном из 13 выходных. Список output: английский, испанский, французский, немецкий, итальянский, португальский, голландский, японский, корейский, упрощённый китайский, арабский, русский, хинди.

Цена: $0,034 за минуту аудио — около 3,13 ₽/мин при курсе 92 ₽/$. Это выгоднее обычного pipeline Whisper API ($0,006/мин) → chat-completion перевод (~$0,02/мин) → TTS ($0,015/мин) = $0,041/мин для live-задач, потому что Translate один WebSocket-стрим с задержкой 200–400 мс end-to-end против 4–7 секунд batch-pipeline.

Сценарии для РФ:

Live-субтитры на международных конференциях (русский ↔ английский в реальном времени)
Синхрон-перевод стриминговых интервью на YouTube / Twitch
Voice-чат для команд с разноязычными участниками (русский продакт + китайский разработчик)
Локализация подкастов в режиме live-relay для пилотного запуска

Что выпадает:

Перевод в редкий output-язык (украинский, белорусский, казахский, болгарский) — потребуется второй шаг через chat-completion, что увеличит стоимость и latency
Batch-перевод готового подкаста — обычный Whisper API + chat-completion дешевле на 30–50%

GPT-Realtime-Whisper — streaming speech-to-text

Realtime-Whisper — потоковая версия знакомого Whisper API. Транскрипция появляется по мере речи, а не после завершения фразы. Закрывает запрос на живые субтитры и заметки на встречах в реальном времени.

Технически: WebSocket-стрим, вы отправляете аудио кусками по 50–100 мс, модель возвращает текстовые delta-events с подмножествами распознанного. Финальный текст приходит после transcript.done event. Latency на полную фразу 200–500 мс против 3–10 секунд у пакетного Whisper API.

Цена: $0,017 за минуту аудио = около 1,56 ₽/мин. В 3 раза дороже обычного Whisper API ($0,006/мин) и в 25 раз дороже Whisper Large-v3-turbo через Groq ($0,04/час батч). Разница в цене — плата за streaming-инфраструктуру.

Когда Realtime-Whisper окупается:

Live-субтитры на онлайн-встречах (Zoom, Google Meet, корпоративный Webex)
Voice-агент техподдержки с барж-ином (когда клиент перебивает бота)
Real-time заметки во время разговора с записью прямой речи в Notion / Linear
Спортивный комментарий, новостные субтитры на стриме

Когда не окупается:

Транскрипция готового файла с диктофона — обычный Whisper API дешевле в 3 раза
Voice-typing в Word/Cursor для одного пользователя — Whisper Large-v3-turbo через Groq в 25 раз дешевле и достаточно быстр на коротких фразах. Подробный разбор Whisper Large-v3-turbo через Groq для production-десктопа — в статье про Whisper Large-v3-turbo на русском.

Latency: где Realtime реально выигрывает

Latency обработки минуты аудио по разным pipeline: Realtime-2 250 мс, Realtime-Whisper 400 мс, Whisper Large-v3-turbo через Groq 2,1 с, OpenAI Whisper API 8,4 с, локально faster-whisper на Mac M2 9,6 с, на Intel i5 CPU 48 с — по логарифмической шкале

Realtime-эндпоинты выигрывают именно в latency-критичных сценариях. Для пакетной обработки разница между 250 мс и 2 секундами незначима. Для voice-агента, где собеседник ждёт ответ в моменте, это разница между «живой разговор» и «голос робота с паузами».

Реальные замеры на минутном фрагменте речи на стандартном бизнес-интернете (Москва, провайдер Ростелеком, 100 Мбит/с):

Realtime-2: 250 мс end-to-end (включая reasoning)
Realtime-Whisper: 400 мс до финального транскрипта
Whisper Large-v3-turbo через Groq: 2,1 секунды на минуту аудио (28× real-time)
OpenAI Whisper API: 8,4 секунды
Локально faster-whisper на Mac M2: 9,6 секунды
Локально faster-whisper на Intel i5 без GPU: 48 секунд

Для voice-typing в редакторе разницы между 2 секундами Groq и 250 мс Realtime пользователь не заметит — обе быстрые. Для voice-агента эта разница критична.

Доступ из России без VPN: пять агрегаторов

Прямой OpenAI API из РФ не оплачивается — карта МИР и СБП не работают, требуется зарубежная карта. Рабочий путь — российские агрегаторы, которые принимают рублёвую оплату через ЮKassa или СБП и проксируют запросы через свою инфраструктуру.

На 21 мая 2026 пять агрегаторов поддерживают Realtime API эндпоинты:

ProxyAPI — один из старейших на рынке (с 2023), доступен через 200 моделей, накрутка 15–20%
GenAPI — российское юрлицо, ИП-friendly биллинг с фискальным чеком ОФД
AITunnel — фокус на realtime/voice эндпоинты, поддержка WebSocket из коробки
Vsegpt — широкая поддержка моделей, накрутка ~10%
Polza AI — для команд с понятным биллингом

Все пять заменяют только base_url в конфигурации SDK — код на openai-python, openai-node, langchain, llamaindex работает без изменений. Накрутка к OpenAI-ценам обычно 10–25%.

Минимальная конфигурация для ProxyAPI на Python:

from openai import AsyncOpenAI

client = AsyncOpenAI(
    api_key="sk-proxyapi-ваш-ключ",
    base_url="https://api.proxyapi.ru/openai/v1"
)
# дальше как обычно — chat.completions.create или realtime через WebSocket

Бонус для бизнеса: агрегаторы выдают фискальный чек ОФД на каждый платёж, что критично для ИП на УСН и ООО с бухгалтерией. Прямо OpenAI этого не делает — иностранный счёт сложнее провести в учёт.

Когда хватит готового desktop-инструмента

Не всем нужен код. Если задача — диктовать в Word / Cursor / Telegram / Notion на русском с английскими терминами, а не строить voice-агента — собственная обвязка на Realtime-API не окупается. Установка готового desktop-приложения занимает 5 минут, подписка 299 ₽/мес покрывает 5 часов диктовки в любое окно.

Диктуй для Windows и macOS работает на Whisper Large-v3-turbo через Groq (тот же endpoint, что используется в большинстве commercial voice-инструментов). Точность 95–98% на чистой русской речи, 92–96% на mixed RU+EN — потолок Whisper для voice-typing. Скачать Диктуй с free-тарифом 30 минут навсегда без карты — этого хватит, чтобы прогнать одну рабочую сессию и сравнить с тем, что вам в API даст обвязка на Realtime-Whisper. Цены и сравнение тарифов — на странице /pricing.

Подробный практический разбор как поднять точность Whisper с baseline 87% к 97% через словарь и контекстный prompt — в статье «Ошибки голосового ввода: 8 фиксов точности».

Пять реальных use case'ов из России

Опросил знакомые product-команды после релиза 7 мая. Сценарии, где Realtime окупается на 21 мая 2026:

1. Voice-агент техподдержки e-commerce. Корзина, статус заказа, возврат — основной FAQ закрывается голосовым агентом на Realtime-2 с reasoning. Один запрос 30–60 секунд = 30–60 ₽ затраты против 50–100 ₽ зарплаты оператора. Окупаемость за 2 месяца на достаточно высоком потоке.

2. Медицинский ассистент для предзаписи. Сбор симптомов, аллергий, температуры перед визитом — структурированное голосовое интервью. Realtime-2 reasoning важен для корректного follow-up по симптомам. ICD-10 справочник в system prompt, кэшируется ($0,40/M против $32/M на input).

3. Образовательный голосовой tutor. Школьник диктует условие задачи по физике, tutor разбирает с reasoning, объясняет голосом. Прирост на сложных задачах с математикой на Big Bench Audio из 81% к 96% — критичен для образования. Подробный разбор GPT-5-уровня reasoning в России — в статье «GPT-5.5 в России».

4. HR-первичный скрининг кандидатов. Voice-агент задаёт 7–10 структурированных вопросов, расшифровка автоматическая, hiring manager получает резюмированный профиль. Realtime-2 reasoning позволяет адаптивные follow-up вопросы по предыдущему ответу.

5. Голосовой co-pilot в Cursor / Claude Code. Разработчик диктует архитектурное размышление вслух, AI-агент даёт голосовой ответ. Здесь Realtime-2 интересен своим reasoning поверх кодовой базы — то, что обычный Whisper + ChatGPT не даёт без полной обвязки. Подробно про voice-prompting AI-агентов на mixed RU+EN коде — в статье про голосовой ввод для Cursor и Claude Code.

Что Realtime API не закроет

Четыре сценария, где новые модели OpenAI не подходят, и куда смотреть взамен.

Полностью офлайн voice-агент. Realtime требует постоянный WebSocket к API OpenAI или агрегатору. Для адвокатской работы со сведениями клиента под ст. 8 ФЗ-63, медицинских сессий с конфиденциальными данными, ВПК и embedded-устройств — облако не подходит. Локальная альтернатива: LiveKit + faster-whisper + локальная Llama 3.3 или Qwen 3 + Coqui-TTS. Сложнее в развёртывании, требует ML-команды, но не отдаёт данные наружу. Подробный разбор open-source voice-typing без облака — в статье про Handy.

Voice-typing для одного пользователя в Word / Cursor. Realtime-Whisper $0,017/мин на 5-часовую рабочую сессию = $5,1 = ~470 ₽/день. Обычный Whisper Large-v3-turbo через Groq на той же сессии = $0,20 = ~19 ₽/день. Готовый desktop-клиент типа Диктуй или SuperWhisper закрывает задачу за подписку 299–800 ₽/мес. Realtime-Whisper здесь — переплата за streaming-инфраструктуру, которая для одного юзера не критична.

Перевод в редкие языки. Translate ограничен 13 output-языками. Для перевода в украинский, белорусский, казахский, узбекский, азербайджанский требуется дополнительный шаг через chat-completion — что увеличивает latency и стоимость, делая преимущество Realtime-Translate менее значимым.

Высокий объём батч-транскрипции. Тысячи часов аудио в месяц на Realtime-Whisper = неоправданно дорого. Для архивов и большой обработки правильный путь — Whisper Large-v3-turbo через Groq ($0,04/час) или собственный self-host faster-whisper.

С чего начать тестировать прямо сегодня

Минимальный путь от «прочитал статью» к «запустил первый Realtime-запрос» за час:

Зарегистрироваться на ProxyAPI или GenAPI — российский агрегатор API. 5 минут.
Пополнить баланс на 500–1000 ₽ через СБП — этого хватит на 5–10 минут тестов Realtime-2 или 30+ минут Realtime-Whisper.
Прогнать минимальный пример из официальной документации OpenAI Realtime — заменить base_url на адрес агрегатора, остальной код без изменений. 20 минут.
Если задача — voice-typing для себя, а не разработка voice-агента — параллельно поставить Диктуй free 30 минут и сравнить UX. 5 минут.
Решить, нужна ли вам streaming-обвязка через Realtime, или хватит готового desktop-клиента / обычного Whisper API через Groq.

Большинство тех, кто пишет в support@diktuy.ru с вопросом «нужен ли мне Realtime API», после этой пятиминутной проверки выбирают готовый клиент — потому что streaming critically нужен только в narrow set'е сценариев, а для voice-typing в редакторе разница между 250 мс и 2 секундами незаметна.

Тем, кто строит свой продукт с voice-агентом — Realtime API сейчас единственный production-ready путь к GPT-5-class reasoning в голосе. Альтернатив с тем же качеством на 21 мая 2026 нет.

Михаил Воинский — основатель Диктуй. Свой опыт работы с Realtime API — какие из трёх моделей реально окупились на ваших задачах, на каких типах workflow streaming-Whisper превзошёл обычный API, какие сценарии остались за рамками этой статьи — пишите на support@diktuy.ru или в @diktuy_help. Соберу из читательских кейсов обновление статьи с реальными цифрами через 30 дней — будет отдельный раздел с указанием контрибьюторов.

Часто задаваемые вопросы

В чём разница между Whisper Large-v3 через обычный API и новым Realtime-Whisper?

Архитектурно — пакетный против потокового запуска. Обычный Whisper API получает аудио целиком, возвращает текст одним блоком через 3–10 секунд. Realtime-Whisper работает по WebSocket: вы стримите аудио по кускам в 50–100 мс, модель отдаёт текстовые delta как только распознает следующее слово. Total latency на полную фразу — 200–500 мс против 3–10 секунд. Цена выше: $0,017/мин против $0,006/мин (≈$0,36/час) у пакетного Whisper API, и в 25 раз дороже Whisper Large-v3-turbo через Groq ($0,04/час). Стоит брать только когда живая транскрипция критична — субтитры на встречах, live перевод, voice-агенты.

Что значит «GPT-5-class reasoning» в Realtime-2?

Realtime-2 — первая голосовая модель OpenAI, под капотом которой работает reasoning-движок уровня GPT-5. Это значит, что модель не только распознаёт речь и отвечает голосом, но и держит сложный многошаговый контекст разговора, понимает абстрактные инструкции, корректно работает с математикой и логикой. По бенчмарку Big Bench Audio Realtime-2 показала 96,6% против 81,4% у предыдущей gpt-realtime-1.5 — прирост 15,2 пункта. Для voice-агента в техподдержке, медицинского ассистента или голосового coding-помощника это критично — у предыдущей модели падал процент успешного решения задачи на сложных кейсах.

Как использовать Realtime API из России без VPN?

Через российских агрегаторов: ProxyAPI, GenAPI, AITunnel, Vsegpt, Polza AI, Umnik AI и аналогичные. Они проксируют запросы к OpenAI через свою серверную инфраструктуру, принимают рублёвую оплату через ЮKassa или СБП. Накрутка 10–25% к цене OpenAI. Бонус: фискальный чек ОФД, что нужно для бухгалтерии ИП/ООО. Все основные SDK (openai-python, openai-node, langchain) меняют только base_url в конфигурации, остальной код работает без изменений. На 21 мая 2026 все пять агрегаторов поддерживают gpt-realtime-2, translate и whisper эндпоинты.

Когда брать Realtime-Translate, а когда — обычный перевод через chat-completion + Whisper?

Realtime-Translate ($0,034/мин) — для live-сценариев, где пользователь ждёт перевод в моменте: live-субтитры на конференции, синхрон-перевод с дельтами в 200–400 мс, voice-чат разноязычных собеседников. Pipeline Whisper API → ChatGPT → текст ($0,006/мин Whisper + ~$0,02/мин chat-completion) — для пакетных задач: перевод готовой записи, локализация подкаста, batch-перевод документов. Translate выигрывает в latency и UX в реальном времени, batch-pipeline выигрывает в стоимости на 30–50% для не-live задач. Также Translate ограничен 13 output-языками (английский, испанский, французский, немецкий, итальянский, португальский, голландский, японский, корейский, китайский, арабский, русский, хинди) — для других нужно пройти ещё одним шагом через chat-completion.

Можно ли запустить gpt-realtime локально без API?

Нет, веса не публикуются — это closed-source модели OpenAI. Локальные open-source альтернативы: для STT — faster-whisper с моделью Large-v3-turbo (5–7× real-time на Mac M2, до 1,5× на Intel CPU); для voice-агента — LiveKit + Whisper + локальная LLM (Llama 3.3, Qwen 3, Mistral Small) + Coqui-TTS. Подробный разбор open-source локального решения для voice-typing — в [статье «Handy и локальный голосовой ввод без облака»](/blog/handy-open-source-golosovoi-vvod-2026). Для production-quality voice-агента с reasoning ближе к GPT-5 локально на одном узле сейчас нет — требуется multi-GPU setup и значимая ML-команда.

Realtime-Whisper заменяет Диктуй или это разные продукты?

Разные слои стека. Realtime-Whisper — это streaming API для разработчиков: вы получаете эндпоинт и пишете код для подключения, обработки звука, обвязки UI. Диктуй — готовое desktop-приложение для конечного пользователя на Win и Mac на Whisper Large-v3-turbo через Groq: устанавливаете, настраиваете хоткей, диктуете в любое окно. Для voice-typing в Word / Cursor / Telegram / Notion обычному пользователю Диктуй дешевле и проще, чем своя обвязка на Realtime-Whisper: подписка 299 ₽/мес покрывает 5 часов диктовки, а собственная разработка с тем же UX = недели работы плюс инфраструктура. Для встраивания в свой продукт (voice-агент техподдержки, live-субтитры на сайте) — наоборот, нужен API, и тут Realtime-Whisper или Whisper Large-v3-turbo через Groq.

Сколько стоит держать voice-агента на Realtime-2 для тысячи минут разговоров в день?

Прямой расчёт: 1000 минут × ~$1/мин = $1000/день при стандартной 50/50 input/output. Это $30K в месяц без оптимизаций — для большинства проектов нерентабельно. С кэшированием system prompt и контекста ($0,40/M против $32/M на input) экономия до 60–70% на тех минутах, где собеседник повторяет похожие запросы. Через гибридный pipeline (Realtime-Whisper для STT $0,017/мин + GPT-5.5 через обычный chat-completion + Realtime-2 только для TTS-части) — снижение до $0,10–0,20 за минуту вместо $1, что уже окупается для коммерческого voice-агента.

Какой типичный use case для Realtime-2 в России 2026?

Пять реальных сценариев из практики команд, которые я опросил после релиза. Первый — voice-агент техподдержки в e-commerce (Wildberries, Ozon уровень) с GPT-5-reasoning поверх FAQ. Второй — медицинский голосовой ассистент для предзаписи и сбора симптомов перед визитом к врачу. Третий — образовательная платформа с голосовым tutor по математике и физике для школьников. Четвёртый — corporate voice-bot для HR-первичного скрининга кандидатов. Пятый — голосовой co-pilot в Cursor и Claude Code для разработчика, который диктует архитектурные размышления и получает голосовой ответ ассистента. Подробно про voice-prompting AI-агентов на mixed RU+EN коде — в [статье «Голосовой ввод для Cursor, Claude Code и AI-агентов»](/blog/golosovoi-vvod-cursor-claude-code-2026).