транскрибация ∙ whisper

Транскрибация аудио в текст: сравнение 8 сервисов на русском в 2026

Тестировали 8 сервисов транскрибации на одном часе разговора с mixed RU+EN речью. Точность Whisper Large-v3 vs Otter vs Apple Dictation, цены, поддержка форматов, рублёвая оплата.

29 апреля 202611 минут чтенияавтор Михаил Воинский, основатель Диктуй

Коротко

Из 8 проверенных сервисов транскрибации точность 95%+ на mixed RU+EN держат три: Wispr Flow ($15/мес, США), SuperWhisper ($8.5/мес, США) и Диктуй (299 ₽/мес, Россия с оплатой картами МИР/СБП). Все на Whisper Large-v3-turbo. Otter.ai теряет 30% на русском. TurboScribe закрывает разовую транскрибацию по бесплатным 30 минутам в день, но оплата только в долларах. Apple Dictation и Win+H не для серьёзной работы.

Что такое транскрибация и почему точность так различается

Транскрибация — это автоматический перевод речи из аудио или видеофайла в текст. С 2022 года индустрия фактически свелась к одной модели: Whisper Large-v3 от OpenAI, обученной на 680,000 часов многоязычной речи (включая ~30,000 часов русского). Все сервисы, которые серьёзно относятся к качеству на русском, используют именно эту модель. Различия — в инфраструктуре запуска, постобработке и UX.

Это объясняет, почему Otter.ai, Apple Dictation и Win+H проигрывают Whisper-based решениям: у них собственные модели, обученные в основном на английских данных. На русском они работают, но точность ниже на 10–25 пунктов. Для одиночной фразы это не критично; для часа интервью — это разница между «текст сразу в дело» и «надо переписывать».

С 2024 года ландшафт сложился так:

Whisper-based, западные: Wispr Flow, SuperWhisper, Aqua Voice, Voicy, Sonix
Whisper-based, российские: Диктуй
Свой движок: Otter.ai, Trint
Встроенные системные: Apple Dictation, Win+H, диктовка Word/Microsoft 365

Если вы ещё не определились, нужна ли вам транскрибация готового файла или живая диктовка голосом, начните с обзорного гайда «Голос в текст: 5 способов перевести речь в текст» — он раскладывает все маршруты речь-в-текст по задачам. Дальше — как мы тестировали и что вышло.

Методология тестирования

Один и тот же набор записей мы прогнали через все 8 сервисов в апреле 2026. Аудио-файлы:

Чистая русская речь — 30 минут подкаста, диктор, студийный микрофон.
Mixed RU+EN — 20 минут IT-планёрки разработчиков (термины: «pull request», «деплой», «webhook», «middleware» вперемешку с русским).
Запись с шумом — 15 минут совещания на удалёнке, дешёвый микрофон ноутбука.
Длинный файл — 90 минут интервью с двумя говорящими.
Telegram-голосовое в OGG — 5 минут эмоциональной речи без подготовки.

Метрики: Word Error Rate (WER) — процент неправильно распознанных слов. WER считал вручную для случайных 200-словных отрывков из каждого файла. Низкий WER = высокая точность. Дополнительно: сколько занимает обработка часа аудио, поддержка форматов, цена на 5 часов транскрибации в месяц.

Дисклеймер. Я основатель Диктуй, поэтому в тесте есть очевидный конфликт интересов. Чтобы это компенсировать: цифры по Диктуй проверяемы — поставьте бесплатные 30 минут и прогоните свой файл. Если результаты у вас отличаются — напишите на support@diktuy.ru, разберёмся. Конкурентов тестировал на стандартных триальных периодах, без специальных оптимизаций — то же, что увидит обычный пользователь.

Сводная таблица: 8 сервисов в одном кадре

Сервис	Точность RU (чистая речь)	Точность mixed RU+EN	Цена	Платформы	Оплата в РФ
Диктуй	95–98%	92–96%	0₽ (30 мин) → 299₽/мес Pro	Win, Mac	МИР, СБП ✅
TurboScribe	90–94%	86–90%	30 мин/день free → $10/мес	Web only	Только валюта ❌
Wispr Flow	95–97%	92–95%	$15/мес после 2000 слов	Win, Mac	Только валюта ❌
SuperWhisper	95–98%	92–96%	$8.5/мес Pro	Mac, Win	Только валюта ❌
Sonix	92–95%	88–92%	$10/час с файла	Web only	Только валюта ❌
Otter.ai	70–80%	60–70%	$16.99/мес Pro	Web, iOS, Android	Только валюта ❌
Voicy	92–94%	88–92%	$8.49/мес или $220 lifetime	Win, Chrome	Только валюта ❌
Aqua Voice	90–93%	85–90%	$10/мес	Mac, Win	Только валюта ❌

Краткие выводы из таблицы:

Топ-3 по точности на русском: Диктуй, Wispr Flow, SuperWhisper. Разница между ними — в пределах статистической погрешности (1–3 пункта WER), решает уже не точность, а цена и платформа (рублёвая оплата против валютной карты, Win+Mac против только Mac).
Otter.ai сильно отстаёт на русском — это известная проблема их собственного движка.
Apple Dictation и Win+H не включены в основную таблицу, поскольку у них принципиально другой use-case (не транскрибация файлов, а диктовка в реальном времени). Они кратко рассмотрены в финальном разделе.

Подробно по каждому сервису

1. Диктуй (Россия) — 299–599 ₽/мес

Десктоп-приложение для Windows и macOS, использует Whisper Large-v3-turbo через Groq. Файлы загружаются drag-and-drop, обработка часа аудио занимает 1–3 минуты благодаря инфраструктуре Groq. Поддерживает MP3, WAV, M4A, OGG, FLAC, MP4, WebM. Файлы до 2 часов / 500 МБ, длинные автоматически чанкуются.

Сильные стороны: оплата картами МИР и СБП без переходников, ИП на УСН с фискальным чеком ОФД на каждый платёж (важно для самозанятых и УСН-бухгалтерии), free-тариф 30 минут навсегда без карты, словарь пользователя для специальной лексики (термины, имена, аббревиатуры), работающий macOS-билд (Apple Developer notarization, без Gatekeeper-предупреждений).

Слабые стороны: нет speaker diarization (разделения говорящих) — для интервью с двумя голосами текст идёт сплошным потоком. Нет встроенного редактора с привязкой к аудио (как у Sonix или Trint) — экспорт в TXT/DOCX/SRT, дальше редактируете в любом текстовом редакторе.

Кому подходит: регулярная транскрибация 5+ часов в месяц, работа в РФ, нужна оплата в рублях, важна macOS-версия. Подробнее — на лендинге /transcription.

2. TurboScribe (США) — 30 мин/день free → $10/мес

Облачный сервис, специализированный под транскрибацию файлов и видео по ссылке. Принимает YouTube, Google Drive, Dropbox URL напрямую — не нужно скачивать видео вручную. Whisper-based, экспорт в TXT/DOCX/SRT/VTT/PDF.

Сильные стороны: бесплатный тариф 30 минут в день закрывает 1-2 коротких записи без оплаты. Прямой импорт по ссылке (YouTube, Drive) экономит 1-2 минуты на каждой задаче. Хороший экспорт в субтитры для видеоредакторов.

Слабые стороны: оплата только в долларах через зарубежную карту; интерфейс и поддержка на английском; точность на чистом русском чуть ниже топ-3 Whisper-сервисов через Groq — обычно 90–94% против 95–98% (запускают Whisper на стандартных GPU, не на оптимизированной LPU-инфраструктуре).

Кому подходит: разовая транскрибация 1-2 файлов в неделю, особенно YouTube-видео по ссылке; пользователи с валютной картой и английским в качестве рабочего языка интерфейса.

3. Wispr Flow (США) — $15/мес

Cloud-сервис, стартап с большим финансированием (Series A $25M в ноябре 2025). Используется тысячами разработчиков на Западе. Free-тариф — 2000 слов в неделю (≈30 минут диктовки), дальше Pro $15/мес безлимит. Работает на Windows и macOS как системный voice-typing — нажали хоткей, продиктовали, текст вставился в активное окно.

Сильные стороны: один из самых отполированных UX в индустрии; быстрая обработка; стабильная работа на длительных диктовках; есть Rewrite-режим (LLM-постобработка надиктованного текста — по case study Baseten под капотом Llama 3.1).

Слабые стороны: оплата в долларах требует прокси-карту (Wise, Profee, зарубежная Visa); $15/мес для российского пользователя — это ~1350 ₽, в 3 раза дороже Диктуй Pro; русский интерфейс отсутствует (всё на английском, что для части аудитории — стоп-фактор).

Кому подходит: русский разработчик с зарубежной картой, для которого важен максимально полированный UX и не критична цена.

Развёрнутый разбор Wispr Flow для русскоязычной аудитории — про оплату, качество русского распознавания и 4 альтернативы — в отдельной статье «Wispr Flow в России в мае 2026».

4. SuperWhisper (США) — $8.5/мес Pro

Mac-первый voice-input (есть и Win-версия, но менее зрелая). Используется Andrej Karpathy как основной voice-input — что в 2025–2026 стало сильным маркетинговым сигналом. Поддерживает локальную модель (Whisper на устройстве, без интернета) для приватных задач или cloud Whisper для скорости.

Сильные стороны: локальная модель работает без интернета (приватность); free-тариф позволяет реально пользоваться без оплаты; цена $8.5/мес — самая низкая в категории Whisper-based.

Слабые стороны: оплата только в долларах, прокси-карта обязательна; Win-версия отстаёт от Mac по UX и стабильности; интерфейс на английском.

Кому подходит: русский пользователь Mac с зарубежной картой, для которого важна приватность (локальная модель) и низкая цена.

5. Sonix (США) — $10 за час с файла

Web-сервис, специализированный под транскрибацию длинных интервью и видео. Не для real-time диктовки. Платите за час обработанного аудио, безлимита нет. На страничке загрузки выбираете язык (русский поддерживается), формат экспорта (TXT, DOCX, SRT, VTT), нужно ли разделение говорящих.

Сильные стороны: speaker diarization работает корректно (две головы — две колонки в редакторе); встроенный текстовый редактор с привязкой к аудио (кликаете слово — играет аудио из этого места); экспорт в SRT/VTT качественный для субтитров.

Слабые стороны: $10/час — дорого для регулярной работы (5 часов = $50/мес = ~4500 ₽, в 7 раз дороже Диктуй Unlimited); only web — нет десктоп-приложения; обработка часа аудио занимает 10–20 минут (медленнее Whisper-on-Groq).

Кому подходит: разовые длинные интервью с двумя говорящими; журналисты с эпизодической нагрузкой; продакшен субтитров для YouTube-канала с парой видео в месяц.

6. Otter.ai (США) — $16.99/мес Pro

Один из самых известных международных сервисов транскрибации. Использует собственный движок, не Whisper. На английском — топ-уровень. На русском — заметно хуже: WER 20–30% против 5% у Whisper. Это не баг — это архитектурное решение Otter оптимизировать модель под английский корпус.

Сильные стороны: real-time транскрибация Zoom/Google Meet с высокой точностью на английском; саммари встреч через AI; iOS и Android приложения; интеграция с Slack, Notion, Salesforce.

Слабые стороны: на русском просто плохо. Для журналиста, делающего интервью на русском, или для российского менеджера, расшифровывающего совещание — Otter не вариант. $16.99/мес = ~1530 ₽, и это — за качество, которое в РФ хуже встроенной диктовки Word.

Кому подходит: бизнес-пользователь, работающий 80%+ времени на английском; международная команда с Zoom-встречами на английском.

7. Voicy (США) — $8.49/мес или $220 lifetime

Бюджетный voice-typing на Windows и Chrome. Использует Whisper, но не топовую версию (lite-вариант). Lifetime-тариф $220 — единственный в индустрии (большинство сервисов — только подписка).

Сильные стороны: lifetime-тариф — нет регулярного платежа, выгоден при использовании 2+ года; Chrome-расширение работает в Google Docs, Slack web, любых веб-формах.

Слабые стороны: только Windows + Chrome, нет macOS-десктопа; точность на 2–3 пункта ниже топовых Whisper-сервисов из-за легкой модели; русский поддерживается, но интерфейс англоязычный.

Кому подходит: Windows-пользователь, работающий в основном в браузере, ищущий разовый платёж вместо подписки.

8. Aqua Voice (США) — $10/мес

Стартап YC-batch, известен моделью Avalon, оптимизированной под программирование (умеет распознавать имена переменных, ключевые слова синтаксиса, форматы регулярок). Mac + Win. Поддерживает 49 языков, включая русский.

Сильные стороны: для программистов на английском — лучше всех в категории распознаёт code-related речь; gamification UI (стрики, статистика «сэкономленных минут»); хорошая русская локализация интерфейса.

Слабые стороны: $10/мес = ~900 ₽ — не самый дешёвый; для русской речи использует Whisper-fallback, и тут Aqua Voice не превосходит Wispr Flow и SuperWhisper, при этом стоит дороже SuperWhisper.

Кому подходит: русскоговорящий разработчик, который основной код пишет с английскими комментариями и хочет максимальную точность distinct по English code-speak. Для смешанной русско-английской работы — есть варианты выгоднее.

Какой сервис выбрать под конкретную задачу

Для регулярной работы в РФ (5+ часов транскрибации в месяц):

Сценарий «копирайтер / журналист / студент»: Диктуй Pro 299 ₽/мес — оптимальный баланс цены, качества и macOS-поддержки. Для студенческого сценария отдельно — как из записи лекции собрать конспект за вечер: пошаговый разбор «Лекция в текст».
Сценарий «менеджер / руководитель»: Диктуй Unlimited 599 ₽/мес — нет лимита, плюс командный тариф для отдела.

Для разового длинного интервью (1–3 часа в год):

Sonix ($10/час) — заплатили один раз, получили редактор с разделением говорящих и SRT-экспорт. Подписка не нужна.

Для работы в основном на английском:

Otter.ai ($16.99/мес) — если 80%+ времени английский, его движок выигрывает в точности и интеграциях.

Для приватных/чувствительных записей:

SuperWhisper локальная модель ($8.5/мес) — Whisper работает на самом устройстве, аудио никуда не отправляется. Единственный вариант в списке с этой опцией.

Для команды из 3+ человек:

Диктуй Unlimited 599 ₽ × N пользователей — для российской команды с рублёвой оплатой и фискальным чеком ОФД. Если 5+ человек — напишите на support@diktuy.ru, дам early access к командному тарифу как только выкатим (в roadmap на лето 2026).

Если ваш бюджет — 0:

Apple Dictation на macOS или Win+H на Windows — встроенные, бесплатные. Точность 60–80% на русском, для коротких заметок и сообщений в мессенджеры — приемлемо. Для серьёзной работы — нет. Подробный разбор включения встроенной диктовки и трёх альтернатив именно для Word — в гайде «Как включить голосовой ввод в ворде в 2026».

Что насчёт Yandex SpeechKit и GigaChat

Часто спрашивают про российские облачные API: Яндекс SpeechKit Cloud и GigaChat от Сбера. Оба умеют распознавать речь, оба заточены под русский. Но это API для разработчиков, а не готовое приложение.

Чтобы расшифровать MP3 через SpeechKit, нужно:

Зарегистрироваться в Yandex Cloud, получить API-ключ.
Написать код на Python (или curl-команду): отправить файл через REST.
Дождаться async-ответа (для длинных файлов), скачать JSON, разобрать его.
Собрать текст из json-сегментов.

Для разработчика, делающего интеграцию в свой продукт — это нормальный путь. Для рядового пользователя, которому надо расшифровать одно интервью — overkill. Все 8 сервисов из этой статьи решают задачу drag-and-drop'ом, без кода.

Кроме того, точность SpeechKit на русском — хорошая, но не сопоставима с Whisper Large-v3 в нашем тестировании на mixed RU+EN. SpeechKit оптимизирован под чистую русскую речь (call-центры, IVR), на смешанной речи теряет качество быстрее.

Что дальше

Наша рекомендация: возьмите 30 минут бесплатно у Диктуй, прогоните своё реальное аудио (одно интервью, одну планёрку, один подкаст-эпизод). Посмотрите глазами — устраивает ли точность под ваш конкретный workflow. Если да — Pro 299 ₽/мес или Unlimited 599 ₽/мес. Если не устраивает — попробуйте Wispr Flow free-tier (2000 слов в неделю), убедитесь что разница в качестве оправдывает разницу в цене и сложности оплаты.

Главный совет: не доверяйте чужим бенчмаркам, в том числе нашим. Распознавание речи сильно зависит от вашего конкретного микрофона, акцента, доменной лексики. Тест на 30 минутах своего реального аудио закроет вопрос быстрее, чем час чтения сравнений.

Михаил Воинский — основатель Диктуй. Замечания, поправки, цифры из вашего собственного теста — пишите на support@diktuy.ru или в @diktuy_help.

Часто задаваемые вопросы

Что такое транскрибация и зачем она нужна?

Транскрибация — автоматическое преобразование речи в текст. Час записи интервью или совещания, который человек расшифровывал бы 4–6 часов вручную, нейросеть Whisper Large-v3 делает за 1–3 минуты. Используется журналистами для интервью, подкастерами для субтитров, студентами для лекций, юристами для допросов, и vibe-coder'ами для расшифровки голосовых заметок и Telegram-войсов.

Какая точность транскрибации на русском в 2026?

На чистой записи (диктор, тихая комната, микрофон близко) Whisper Large-v3-turbo даёт 95–98% точности. На записях с шумом, акцентом или фоновой музыкой — 88–93%. На mixed RU+EN речи (типичной для IT) — 92–96%. Конкуренты на собственных моделях (Otter, частично Trint) показывают на русском 70–85%. Apple Dictation и встроенный Win+H — 60–80%. Разница в 10–25 пунктов — это разница между готовым текстом и текстом, который надо переписывать.

Можно ли транскрибировать видео в текст?

Да, любым из сервисов на основе Whisper. Видео-форматы (MP4, WebM, MOV) обрабатываются автоматически: сервис извлекает аудиодорожку и распознаёт её. Если нужны субтитры с временными метками — выбирайте сервис с экспортом в SRT или VTT. Sonix, Otter и Диктуй умеют это; Wispr Flow и SuperWhisper изначально заточены под voice-typing, экспорт SRT там не основной use-case. Подробный пошаговый гайд по транскрибации видео с примером часового интервью — в [отдельной статье про транскрибацию видео в текст](/blog/transkribatsiya-video-v-tekst-poshagovo-2026).

Какой сервис подходит для транскрибации интервью на 1–2 часа?

Sonix ($10/час) и Trint ($80/мес базовый) — заточены именно под длинные интервью с разделением говорящих (speaker diarization), временными метками и редактором текста с привязкой к аудио. Для разовых интервью разово выгоднее Sonix (платите за час). Для регулярной работы (5+ интервью в месяц) — Диктуй Pro 299 ₽ или Unlimited 599 ₽ выйдет в 4–10 раз дешевле, при сопоставимом качестве распознавания.

Можно ли расшифровать запись с диктофона телефона?

Да. Запись iPhone сохраняется в M4A, Android-диктофоны обычно в M4A или AMR. Все Whisper-сервисы (Диктуй, Wispr Flow, SuperWhisper, Sonix) принимают M4A. AMR может потребовать конвертации — используйте бесплатный CloudConvert или ffmpeg. Telegram-голосовые сохраняются в OGG — Диктуй обрабатывает их напрямую без конвертации. Развёрнутый пошаговый гайд под именно диктофонный сценарий с кейсами под журналистов, студентов и юристов — в [статье «Диктофон в текст: пошагово как расшифровать запись»](/blog/diktofon-v-tekst-rasshifrovat-2026).

Сколько стоит транскрибация в рублях для российского пользователя?

Из российских сервисов Диктуй (299 ₽/мес Pro, 599 ₽/мес Unlimited) принимает карты МИР и СБП без прокси, ИП на УСН с фискальным чеком ОФД на каждый платёж. Зарубежные сервисы требуют иностранную карту или переходник вроде Wise/Profee. По эффективной стоимости часа транскрибации для регулярного использования (5+ часов в месяц): Диктуй Unlimited 599 ₽ — самый выгодный вариант для рублёвой оплаты. Sonix $10/час разово — выгоден для 1–3 часов в год, иначе подписка дешевле. TurboScribe — 30 минут/день бесплатно для нерегулярных задач.

Как защищены персональные данные при транскрибации?

Все 8 сервисов передают аудио на свои сервера для обработки — это технически необходимо для работы Whisper. Различия: где хранятся данные и сколько. Диктуй удаляет файл сразу после возврата текста, текст хранится на серверах в РФ (152-ФЗ). Wispr Flow, SuperWhisper, Sonix, Otter, TurboScribe — серверы в США, политика хранения у каждого своя, читать privacy. Для медицинских записей, договоров и юридически чувствительных материалов мы не рекомендуем использовать облачную транскрибацию — это касается любого сервиса, не только Whisper-based.

Whisper Large-v3 одинаково работает у всех?

Технически — да, базовая модель та же. Различия — в инфраструктуре и обвязке. Wispr Flow, SuperWhisper и Диктуй используют Groq (специализированные LPU-чипы), которые ускоряют inference в 5–10 раз. Sonix и TurboScribe запускают Whisper на собственных GPU — медленнее, но дешевле для длинных файлов. Качество распознавания одинаковое; разница в скорости (1 минута на час vs 10 минут) и в постобработке (умеет ли сервис ставить пунктуацию, разделять говорящих, чистить «эээ»). Архитектурный разбор разницы между Large-v3 и turbo-вариантом, бенчмарк WER и почему Groq быстрее обычного OpenAI API — в [отдельной статье «Whisper Large-v3-turbo на русском»](/blog/whisper-large-v3-turbo-russkiy-2026).