Диктуй
10 мин чтенияМихаил Воинский, основатель Диктуй

Транскрибация аудио в текст: сравнение 8 сервисов на русском в 2026

Тестировали 8 сервисов транскрибации на одном часе разговора с mixed RU+EN речью. Точность Whisper Large-v3 vs Otter vs Apple Dictation, цены, поддержка форматов, рублёвая оплата.

Коротко

Из 8 проверенных сервисов транскрибации точность 95%+ на mixed RU+EN держат три: Wispr Flow ($15/мес, США), SuperWhisper ($8.5/мес, США) и Диктуй (449 ₽/мес, Россия). Все на Whisper Large-v3-turbo. Otter.ai теряет 30% на русском. SpeakFlow сопоставим по точности с Диктуй, но 690 ₽ и без рабочей macOS. Apple Dictation и Win+H не для серьёзной работы.

Что такое транскрибация и почему точность так различается

Транскрибация — это автоматический перевод речи из аудио или видеофайла в текст. С 2022 года индустрия фактически свелась к одной модели: Whisper Large-v3 от OpenAI, обученной на 680,000 часов многоязычной речи (включая ~30,000 часов русского). Все сервисы, которые серьёзно относятся к качеству на русском, используют именно эту модель. Различия — в инфраструктуре запуска, постобработке и UX.

Это объясняет, почему Otter.ai, Apple Dictation и Win+H проигрывают Whisper-based решениям: у них собственные модели, обученные в основном на английских данных. На русском они работают, но точность ниже на 10–25 пунктов. Для одиночной фразы это не критично; для часа интервью — это разница между «текст сразу в дело» и «надо переписывать».

С 2024 года ландшафт сложился так:

  • Whisper-based, западные: Wispr Flow, SuperWhisper, Aqua Voice, Voicy, Sonix
  • Whisper-based, российские: Диктуй, SpeakFlow
  • Свой движок: Otter.ai, Trint
  • Встроенные системные: Apple Dictation, Win+H, диктовка Word/Microsoft 365

Дальше — как мы тестировали и что вышло.

Методология тестирования

Один и тот же набор записей мы прогнали через все 8 сервисов в апреле 2026. Аудио-файлы:

  1. Чистая русская речь — 30 минут подкаста, диктор, студийный микрофон.
  2. Mixed RU+EN — 20 минут IT-планёрки разработчиков (термины: «pull request», «деплой», «webhook», «middleware» вперемешку с русским).
  3. Запись с шумом — 15 минут совещания на удалёнке, дешёвый микрофон ноутбука.
  4. Длинный файл — 90 минут интервью с двумя говорящими.
  5. Telegram-голосовое в OGG — 5 минут эмоциональной речи без подготовки.

Метрики: Word Error Rate (WER) — процент неправильно распознанных слов. WER считал вручную для случайных 200-словных отрывков из каждого файла. Низкий WER = высокая точность. Дополнительно: сколько занимает обработка часа аудио, поддержка форматов, цена на 5 часов транскрибации в месяц.

Дисклеймер. Я основатель Диктуй, поэтому в тесте есть очевидный конфликт интересов. Чтобы это компенсировать: цифры по Диктуй проверяемы — поставьте бесплатные 30 минут и прогоните свой файл. Если результаты у вас отличаются — напишите на support@diktuy.ru, разберёмся. Конкурентов тестировал на стандартных триальных периодах, без специальных оптимизаций — то же, что увидит обычный пользователь.

Сводная таблица: 8 сервисов в одном кадре

СервисТочность RU (чистая речь)Точность mixed RU+ENЦенаПлатформыОплата в РФ
Диктуй95–98%92–96%0₽ (30 мин) → 449₽/мес ProWin, MacМИР, СБП ✅
SpeakFlow95–97%90–94%690 ₽/месWin (Mac сломан)Российские карты ✅
Wispr Flow95–97%92–95%$15/мес после 2000 словWin, MacТолько валюта ❌
SuperWhisper95–98%92–96%$8.5/мес ProMac, WinТолько валюта ❌
Sonix92–95%88–92%$10/час с файлаWeb onlyТолько валюта ❌
Otter.ai70–80%60–70%$16.99/мес ProWeb, iOS, AndroidТолько валюта ❌
Voicy92–94%88–92%$8.49/мес или $220 lifetimeWin, ChromeТолько валюта ❌
Aqua Voice90–93%85–90%$10/месMac, WinТолько валюта ❌

Краткие выводы из таблицы:

  • Топ-3 по точности на русском: Диктуй, SpeakFlow, Wispr Flow / SuperWhisper. Разница между ними — в пределах статистической погрешности (1–3 пункта WER), решает уже не точность, а цена и платформа.
  • Otter.ai сильно отстаёт на русском — это известная проблема их собственного движка.
  • Apple Dictation и Win+H не включены в основную таблицу, поскольку у них принципиально другой use-case (не транскрибация файлов, а диктовка в реальном времени). Они кратко рассмотрены в финальном разделе.

Подробно по каждому сервису

1. Диктуй (Россия) — 449–599 ₽/мес

Десктоп-приложение для Windows и macOS, использует Whisper Large-v3-turbo через Groq. Файлы загружаются drag-and-drop, обработка часа аудио занимает 1–3 минуты благодаря инфраструктуре Groq. Поддерживает MP3, WAV, M4A, OGG, FLAC, MP4, WebM. Файлы до 2 часов / 500 МБ, длинные автоматически чанкуются.

Сильные стороны: оплата картами МИР и СБП без переходников, free-тариф 30 минут навсегда без карты, работающий macOS-билд (в отличие от SpeakFlow на апрель 2026), словарь пользователя для специальной лексики (термины, имена, аббревиатуры).

Слабые стороны: нет speaker diarization (разделения говорящих) — для интервью с двумя голосами текст идёт сплошным потоком. Нет встроенного редактора с привязкой к аудио (как у Sonix или Trint) — экспорт в TXT/DOCX/SRT, дальше редактируете в любом текстовом редакторе.

Кому подходит: регулярная транскрибация 5+ часов в месяц, работа в РФ, нужна оплата в рублях, важна macOS-версия. Подробнее — на лендинге /transcription.

2. SpeakFlow (Россия) — 690 ₽/мес

Прямой конкурент Диктуй на российском рынке. Whisper-based, активная контентная стратегия (несколько SEO-лендингов под Word, расшифровку аудио, видео). Десктоп-приложение для Windows; macOS-билд сломан в версии 1.3.60 (на 29 апреля 2026 — сайт SpeakFlow отдаёт «приложение повреждено» при запуске на Mac).

Сильные стороны: ассистент встреч (запись системного аудио + саммари) — фича, которую у Диктуй пока нет. Командный тариф 490 ₽ за пользователя — выгоден для команд от 3 человек.

Слабые стороны: macOS не работает; цена выше Диктуй на 13% при сопоставимой модели; privacy-страница урезана до 6 абзацев (для сравнения, у Диктуй 10 разделов с детализацией по 152-ФЗ); код приложения не подписан — Windows показывает SmartScreen-предупреждение.

Кому подходит: Windows-only пользователи, которым нужен встроенный ассистент встреч и команда от 3 человек.

3. Wispr Flow (США) — $15/мес

Cloud-сервис, стартап с большим финансированием (Series A $25M в ноябре 2025). Используется тысячами разработчиков на Западе. Free-тариф — 2000 слов в неделю (≈30 минут диктовки), дальше Pro $15/мес безлимит. Работает на Windows и macOS как системный voice-typing — нажали хоткей, продиктовали, текст вставился в активное окно.

Сильные стороны: один из самых отполированных UX в индустрии; быстрая обработка; стабильная работа на длительных диктовках; есть Rewrite-режим (LLM-постобработка надиктованного текста — по case study Baseten под капотом Llama 3.1).

Слабые стороны: оплата в долларах требует прокси-карту (Wise, Profee, зарубежная Visa); $15/мес для российского пользователя — это ~1350 ₽, в 3 раза дороже Диктуй Pro; русский интерфейс отсутствует (всё на английском, что для части аудитории — стоп-фактор).

Кому подходит: русский разработчик с зарубежной картой, для которого важен максимально полированный UX и не критична цена.

Развёрнутый разбор Wispr Flow для русскоязычной аудитории — про оплату, качество русского распознавания и 4 альтернативы — в отдельной статье «Wispr Flow в России в мае 2026».

4. SuperWhisper (США) — $8.5/мес Pro

Mac-первый voice-input (есть и Win-версия, но менее зрелая). Используется Andrej Karpathy как основной voice-input — что в 2025–2026 стало сильным маркетинговым сигналом. Поддерживает локальную модель (Whisper на устройстве, без интернета) для приватных задач или cloud Whisper для скорости.

Сильные стороны: локальная модель работает без интернета (приватность); free-тариф позволяет реально пользоваться без оплаты; цена $8.5/мес — самая низкая в категории Whisper-based.

Слабые стороны: оплата только в долларах, прокси-карта обязательна; Win-версия отстаёт от Mac по UX и стабильности; интерфейс на английском.

Кому подходит: русский пользователь Mac с зарубежной картой, для которого важна приватность (локальная модель) и низкая цена.

5. Sonix (США) — $10 за час с файла

Web-сервис, специализированный под транскрибацию длинных интервью и видео. Не для real-time диктовки. Платите за час обработанного аудио, безлимита нет. На страничке загрузки выбираете язык (русский поддерживается), формат экспорта (TXT, DOCX, SRT, VTT), нужно ли разделение говорящих.

Сильные стороны: speaker diarization работает корректно (две головы — две колонки в редакторе); встроенный текстовый редактор с привязкой к аудио (кликаете слово — играет аудио из этого места); экспорт в SRT/VTT качественный для субтитров.

Слабые стороны: $10/час — дорого для регулярной работы (5 часов = $50/мес = ~4500 ₽, в 7 раз дороже Диктуй Unlimited); only web — нет десктоп-приложения; обработка часа аудио занимает 10–20 минут (медленнее Whisper-on-Groq).

Кому подходит: разовые длинные интервью с двумя говорящими; журналисты с эпизодической нагрузкой; продакшен субтитров для YouTube-канала с парой видео в месяц.

6. Otter.ai (США) — $16.99/мес Pro

Один из самых известных международных сервисов транскрибации. Использует собственный движок, не Whisper. На английском — топ-уровень. На русском — заметно хуже: WER 20–30% против 5% у Whisper. Это не баг — это архитектурное решение Otter оптимизировать модель под английский корпус.

Сильные стороны: real-time транскрибация Zoom/Google Meet с высокой точностью на английском; саммари встреч через AI; iOS и Android приложения; интеграция с Slack, Notion, Salesforce.

Слабые стороны: на русском просто плохо. Для журналиста, делающего интервью на русском, или для российского менеджера, расшифровывающего совещание — Otter не вариант. $16.99/мес = ~1530 ₽, и это — за качество, которое в РФ хуже встроенной диктовки Word.

Кому подходит: бизнес-пользователь, работающий 80%+ времени на английском; международная команда с Zoom-встречами на английском.

7. Voicy (США) — $8.49/мес или $220 lifetime

Бюджетный voice-typing на Windows и Chrome. Использует Whisper, но не топовую версию (lite-вариант). Lifetime-тариф $220 — единственный в индустрии (большинство сервисов — только подписка).

Сильные стороны: lifetime-тариф — нет регулярного платежа, выгоден при использовании 2+ года; Chrome-расширение работает в Google Docs, Slack web, любых веб-формах.

Слабые стороны: только Windows + Chrome, нет macOS-десктопа; точность на 2–3 пункта ниже топовых Whisper-сервисов из-за легкой модели; русский поддерживается, но интерфейс англоязычный.

Кому подходит: Windows-пользователь, работающий в основном в браузере, ищущий разовый платёж вместо подписки.

8. Aqua Voice (США) — $10/мес

Стартап YC-batch, известен моделью Avalon, оптимизированной под программирование (умеет распознавать имена переменных, ключевые слова синтаксиса, форматы регулярок). Mac + Win. Поддерживает 49 языков, включая русский.

Сильные стороны: для программистов на английском — лучше всех в категории распознаёт code-related речь; gamification UI (стрики, статистика «сэкономленных минут»); хорошая русская локализация интерфейса.

Слабые стороны: $10/мес = ~900 ₽ — не самый дешёвый; для русской речи использует Whisper-fallback, и тут Aqua Voice не превосходит Wispr Flow и SuperWhisper, при этом стоит дороже SuperWhisper.

Кому подходит: русскоговорящий разработчик, который основной код пишет с английскими комментариями и хочет максимальную точность distinct по English code-speak. Для смешанной русско-английской работы — есть варианты выгоднее.

Какой сервис выбрать под конкретную задачу

Для регулярной работы в РФ (5+ часов транскрибации в месяц):

  • Сценарий «копирайтер / журналист / студент»: Диктуй Pro 449 ₽/мес — оптимальный баланс цены, качества и macOS-поддержки.
  • Сценарий «менеджер / руководитель»: Диктуй Unlimited 599 ₽/мес — нет лимита, плюс командный тариф для отдела.

Для разового длинного интервью (1–3 часа в год):

  • Sonix ($10/час) — заплатили один раз, получили редактор с разделением говорящих и SRT-экспорт. Подписка не нужна.

Для работы в основном на английском:

  • Otter.ai ($16.99/мес) — если 80%+ времени английский, его движок выигрывает в точности и интеграциях.

Для приватных/чувствительных записей:

  • SuperWhisper локальная модель ($8.5/мес) — Whisper работает на самом устройстве, аудио никуда не отправляется. Единственный вариант в списке с этой опцией.

Для команды из 3+ человек:

  • SpeakFlow командный 490 ₽/чел/мес или Диктуй Unlimited 599 ₽ × N — посчитайте, что выгоднее под вашу нагрузку.

Если ваш бюджет — 0:

  • Apple Dictation на macOS или Win+H на Windows — встроенные, бесплатные. Точность 60–80% на русском, для коротких заметок и сообщений в мессенджеры — приемлемо. Для серьёзной работы — нет. Подробный разбор включения встроенной диктовки и трёх альтернатив именно для Word — в гайде «Как включить голосовой ввод в ворде в 2026».

Что насчёт Yandex SpeechKit и GigaChat

Часто спрашивают про российские облачные API: Яндекс SpeechKit Cloud и GigaChat от Сбера. Оба умеют распознавать речь, оба заточены под русский. Но это API для разработчиков, а не готовое приложение.

Чтобы расшифровать MP3 через SpeechKit, нужно:

  1. Зарегистрироваться в Yandex Cloud, получить API-ключ.
  2. Написать код на Python (или curl-команду): отправить файл через REST.
  3. Дождаться async-ответа (для длинных файлов), скачать JSON, разобрать его.
  4. Собрать текст из json-сегментов.

Для разработчика, делающего интеграцию в свой продукт — это нормальный путь. Для рядового пользователя, которому надо расшифровать одно интервью — overkill. Все 8 сервисов из этой статьи решают задачу drag-and-drop'ом, без кода.

Кроме того, точность SpeechKit на русском — хорошая, но не сопоставима с Whisper Large-v3 в нашем тестировании на mixed RU+EN. SpeechKit оптимизирован под чистую русскую речь (call-центры, IVR), на смешанной речи теряет качество быстрее.

Что дальше

Наша рекомендация: возьмите 30 минут бесплатно у Диктуй, прогоните своё реальное аудио (одно интервью, одну планёрку, один подкаст-эпизод). Посмотрите глазами — устраивает ли точность под ваш конкретный workflow. Если да — Pro 449 ₽/мес или Unlimited 599 ₽/мес. Если не устраивает — попробуйте Wispr Flow free-tier (2000 слов в неделю), убедитесь что разница в качестве оправдывает разницу в цене и сложности оплаты.

Главный совет: не доверяйте чужим бенчмаркам, в том числе нашим. Распознавание речи сильно зависит от вашего конкретного микрофона, акцента, доменной лексики. Тест на 30 минутах своего реального аудио закроет вопрос быстрее, чем час чтения сравнений.


Михаил Воинский — основатель Диктуй. Замечания, поправки, цифры из вашего собственного теста — пишите на support@diktuy.ru или в @diktuy_help.

Часто задаваемые вопросы

Что такое транскрибация и зачем она нужна?
Транскрибация — автоматическое преобразование речи в текст. Час записи интервью или совещания, который человек расшифровывал бы 4–6 часов вручную, нейросеть Whisper Large-v3 делает за 1–3 минуты. Используется журналистами для интервью, подкастерами для субтитров, студентами для лекций, юристами для допросов, и vibe-coder'ами для расшифровки голосовых заметок и Telegram-войсов.
Какая точность транскрибации на русском в 2026?
На чистой записи (диктор, тихая комната, микрофон близко) Whisper Large-v3-turbo даёт 95–98% точности. На записях с шумом, акцентом или фоновой музыкой — 88–93%. На mixed RU+EN речи (типичной для IT) — 92–96%. Конкуренты на собственных моделях (Otter, частично Trint) показывают на русском 70–85%. Apple Dictation и встроенный Win+H — 60–80%. Разница в 10–25 пунктов — это разница между готовым текстом и текстом, который надо переписывать.
Можно ли транскрибировать видео в текст?
Да, любым из сервисов на основе Whisper. Видео-форматы (MP4, WebM, MOV) обрабатываются автоматически: сервис извлекает аудиодорожку и распознаёт её. Если нужны субтитры с временными метками — выбирайте сервис с экспортом в SRT или VTT. Sonix, Otter и Диктуй умеют это; Wispr Flow и SuperWhisper изначально заточены под voice-typing, экспорт SRT там не основной use-case. Подробный пошаговый гайд по транскрибации видео с примером часового интервью — в [отдельной статье про транскрибацию видео в текст](/blog/transkribatsiya-video-v-tekst-poshagovo-2026).
Какой сервис подходит для транскрибации интервью на 1–2 часа?
Sonix ($10/час) и Trint ($80/мес базовый) — заточены именно под длинные интервью с разделением говорящих (speaker diarization), временными метками и редактором текста с привязкой к аудио. Для разовых интервью разово выгоднее Sonix (платите за час). Для регулярной работы (5+ интервью в месяц) — Диктуй Pro 449 ₽ или Unlimited 599 ₽ выйдет в 4–10 раз дешевле, при сопоставимом качестве распознавания.
Можно ли расшифровать запись с диктофона телефона?
Да. Запись iPhone сохраняется в M4A, Android-диктофоны обычно в M4A или AMR. Все Whisper-сервисы (Диктуй, Wispr Flow, SuperWhisper, SpeakFlow, Sonix) принимают M4A. AMR может потребовать конвертации — используйте бесплатный CloudConvert или ffmpeg. Telegram-голосовые сохраняются в OGG — Диктуй обрабатывает их напрямую без конвертации. Развёрнутый пошаговый гайд под именно диктофонный сценарий с кейсами под журналистов, студентов и юристов — в [статье «Диктофон в текст: пошагово как расшифровать запись»](/blog/diktofon-v-tekst-rasshifrovat-2026).
Сколько стоит транскрибация в рублях для российского пользователя?
Российские сервисы (Диктуй 449 ₽/мес Pro, SpeakFlow 690 ₽/мес) принимают карты МИР и СБП без прокси. Зарубежные требуют иностранную карту или переходник вроде Wise/Profee. По эффективной стоимости часа транскрибации для регулярного использования (5+ часов в месяц): Диктуй Unlimited 599 ₽ — самый выгодный вариант. SpeakFlow на 13% дороже при сопоставимой модели распознавания. Sonix $10/час разово — выгоден для 1–3 часов в год, иначе подписка дешевле.
Как защищены персональные данные при транскрибации?
Все 8 сервисов передают аудио на свои сервера для обработки — это технически необходимо для работы Whisper. Различия: где хранятся данные и сколько. Диктуй и SpeakFlow удаляют файл сразу после возврата текста, текст хранится на серверах в РФ (152-ФЗ). Wispr Flow, SuperWhisper, Sonix, Otter — серверы в США, политика хранения у каждого своя, читать privacy. Для медицинских записей, договоров и юридически чувствительных материалов мы не рекомендуем использовать облачную транскрибацию — это касается любого сервиса, не только Whisper-based.
Whisper Large-v3 одинаково работает у всех?
Технически — да, базовая модель та же. Различия — в инфраструктуре и обвязке. Wispr Flow, SuperWhisper и Диктуй используют Groq (специализированные LPU-чипы), которые ускоряют inference в 5–10 раз. Sonix запускает Whisper на собственных GPU — медленнее, но дешевле для длинных файлов. SpeakFlow — на стандартных GPU. Качество распознавания одинаковое; разница в скорости (1 минута на час vs 10 минут) и в постобработке (умеет ли сервис ставить пунктуацию, разделять говорящих, чистить «эээ»).

Попробуйте Диктуй бесплатно

30 минут навсегда. Без карты, без trial. Если не зайдёт за первые 10 промптов — нет смысла платить.

Скачать для Windows и macOS