Диктуй

Транскрибация

Транскрибация аудио в текст на русском

MP3, WAV, M4A, OGG, FLAC, MP4, WebM — перетащил файл, через 1–3 минуты получил текст. Whisper Large-v3-turbo, точность 95%+ на русском, даже на mixed RU+EN речи.

Без карты · Без trial · Windows 10/11 + macOS 11+

Что такое транскрибация и зачем она нужна

Транскрибация — это автоматическое преобразование речи из аудио или видеофайла в текст. Час записи, который человек расшифровывал бы вручную 4–6 часов, нейросеть Whisper Large-v3 переводит в текст за 1–3 минуты.

Используется журналистами для интервью, подкастерами для субтитров, студентами для лекций, юристами для допросов, и vibe-coder'ами для расшифровки голосовых заметок и Telegram-войсов. Главная задача 2026 года — корректное распознавание русского с английскими терминами («push в main», «деплой webhook», «обработка 404»), на чём большинство встроенных решений (Apple Dictation, Win+H) сильно проседает.

Как работает в Диктуй: 3 шага

1

Перетащите файл

Drag-and-drop любого MP3, WAV, M4A, OGG, FLAC или MP4/WebM в окно Диктуй. Размер до ~500 МБ или 2 часа.

2

Whisper Large-v3 расшифровывает

Файл уходит на сервер Groq, там разбивается на чанки и обрабатывается параллельно. 1 час аудио → 1–3 минуты ожидания.

3

Готовый текст

Получаете результат в окне приложения. Копируете, редактируете, экспортируете в TXT, DOCX, SRT (для видео) или VTT.

Точность на русском в 2026: конкретные цифры

Под капотом — Whisper Large-v3-turbo (последняя стабильная версия модели OpenAI на апрель 2026), запущенная через Groq для ускоренного inference. Это та же базовая модель, что у Wispr Flow, SuperWhisper и SpeakFlow. Разница — в инфраструктуре запуска (Groq vs обычные GPU) и UI.

95–98%
Чистая русская речь
Подкасты, лекции, интервью без шумов
92–96%
Mixed RU+EN речь
IT-разговоры, vibe coding, дев-планёрки
88–93%
С фоновым шумом
Записи с улицы, в кафе, дальний микрофон

Цифры — на основе внутреннего тестирования на 200+ файлах различных категорий (январь–апрель 2026). Конкретный результат зависит от качества записи, акцента диктора и наличия специальной лексики.

Поддерживаемые форматы

7 аудио/видео форматов плюс автоматическое извлечение аудиодорожки из видео.

  • MP3 самый распространённый формат
  • WAV несжатое студийное качество
  • M4A iPhone, диктофоны Apple
  • OGG Telegram голосовые
  • FLAC lossless
  • MP4 видео, извлечём аудио
  • WebM браузерные записи, Loom

Кому пригодится: 6 реальных сценариев

Интервью и подкасты

Записал час разговора — за пару минут получил полный текстовый файл с разделением по абзацам. Можно опубликовать как статью или сделать саммари.

Лекции и вебинары

Студенты и онлайн-учителя расшифровывают двухчасовые лекции с техническими терминами. Точность сохраняется на длинных фрагментах.

Совещания и встречи

Запись Zoom/Google Meet → транскрипт со всеми обсуждениями. Не нужно ничего конспектировать вручную.

Заметки голосом

Идеи в дороге, мысли вслух за рулём — Telegram-голосовые в OGG, скинули в Диктуй, получили текст. Никакого ручного перепечатывания.

Видеоконтент

MP4 с YouTube или Loom-записи — извлекаем аудио и транскрибируем. Готовые субтитры, описание видео, текстовая версия для статьи.

Журналистика и юриспруденция

Запись допроса, комментарии эксперта, телефонный разговор. Whisper Large-v3 держит специальную лексику (термины, имена, аббревиатуры) лучше встроенных решений.

Сравнение с другими сервисами транскрибации

Сильные стороны Диктуй для русского рынка: оплата в рублях (карты МИР, СБП), нативный десктоп для Windows и macOS, честный free-тариф без trial.

СервисЦенаТочность RUПлатформыОплата
Диктуй0₽ (30 мин) → 449₽/мес Pro95%+ (Whisper Large-v3-turbo)Win + MacМИР, СБП, карты
SpeakFlow690₽/месWhisper (версия не указана)Win (macOS сломан в 1.3.60)Российские карты
Sonix$10/час с файлаWhisper / собственный движокТолько webКарты в долларах
Otter.ai$16.99/мес ProСобственный движок (плох на русском)Web + iOS/AndroidКарты в долларах
Voicy$8.49/мес или $220 lifetimeWhisperWin + ChromeКарты в долларах

Цены и характеристики на 29 апреля 2026 на основе публичных сайтов сервисов. У Otter.ai точность на русском низкая — собственный движок не сопоставим с Whisper Large-v3.

Сколько стоит транскрибация в Диктуй

Free
0 ₽
30 мин/мес
Starter
249 ₽/мес
150 мин/мес
Pro
449 ₽/мес
300 мин/мес
Unlimited
599 ₽/мес
Без лимита

Все тарифы оплачиваются картами МИР, через СБП и зарубежными картами. Скидки до 20% при оплате за 12 месяцев. Подробнее о тарифах →

Часто задаваемые вопросы

Какая точность транскрибации на русском?
Диктуй использует Whisper Large-v3-turbo через Groq — это та же базовая модель, что у Wispr Flow и SuperWhisper. На чистой русской речи (диктор, подкаст, интервью без шумов) точность 95-98%. На записях с фоновым шумом, акцентом или быстрой речью — 88-93%. На mixed RU+EN речи (типичной для IT и vibe coding) — 92-96%, что значительно выше встроенных решений Windows/macOS, которые на mixed теряют 30-50% качества.
Какие форматы аудио и видео поддерживаются?
Аудио: MP3, WAV, M4A, OGG, FLAC. Видео: MP4, WebM (Диктуй автоматически извлечёт аудиодорожку). Telegram-голосовые в OGG работают «из коробки» — просто перетащите файл из мессенджера в окно Диктуй. Лимит размера файла — 2 часа аудио или ~500 МБ. Длинные файлы автоматически разбиваются на чанки и транскрибируются параллельно.
Можно ли транскрибировать бесплатно?
Да. Free-тариф Диктуй даёт 30 минут транскрибации в месяц **навсегда** — без карты, без trial-периода, без скрытых лимитов. Этого достаточно, чтобы попробовать на реальном файле и понять подходит ли. Если нужно больше — Starter 249₽/мес (150 мин), Pro 449₽/мес (300 мин), Unlimited 599₽/мес (без лимита). Все тарифы оплачиваются картами МИР, СБП и зарубежными — без прокси-карт.
Где хранятся файлы и обрабатываются персональные данные?
Файлы загружаются на сервера Groq (США) только на время транскрибации — после получения результата они удаляются автоматически. Текстовый результат хранится в вашем личном кабинете на серверах в РФ (Beget VPS) согласно требованиям 152-ФЗ о локализации персональных данных граждан РФ. Подробнее — в [политике конфиденциальности](/privacy). Для медицинских записей и юридических документов с особо чувствительными данными мы не рекомендуем использовать облачную транскрибацию — это касается всех сервисов на Whisper, не только Диктуй.
Чем транскрибация в Диктуй отличается от Я.SpeechKit и GigaChat?
Я.SpeechKit и GigaChat — это API для разработчиков, без готового UI. Чтобы расшифровать MP3, нужно написать код на Python, отправить файл через REST, получить JSON, разобрать его. Диктуй — десктоп-приложение с drag-and-drop: перетащил файл → получил готовый текст в окне с возможностью копирования и экспорта в TXT/DOCX/SRT. Целевая аудитория Я.SpeechKit — разработчики и контактные центры; Диктуй — обычные пользователи, журналисты, копирайтеры, vibe-coder'ы, юристы.
Можно ли экспортировать в субтитры (SRT) для видео?
Да. После транскрибации видеофайла Диктуй сохраняет временные метки сегментов и предлагает экспорт в SRT (стандартный формат субтитров для YouTube, Premiere, Final Cut, DaVinci) и VTT (для веб-плееров). Если расшифровывали аудио (без видео) — экспорт доступен в TXT (просто текст) и DOCX (с разбиением по говорящим, если они различимы по интонации).
Сколько времени занимает транскрибация часа аудио?
На Whisper Large-v3-turbo через Groq — час аудио расшифровывается за 1-3 минуты благодаря параллельной обработке чанков. Это в 5-10 раз быстрее, чем у конкурентов на не-Groq инфраструктуре (Sonix, Otter тратят 10-20 минут на час). Если сервер Groq перегружен (пиковые часы), может занять до 5 минут — но это всё равно радикально быстрее ручной расшифровки (которая занимает 4-6 часов на час записи).

Попробуйте бесплатно — 30 минут навсегда

Без карты, без trial. Если за первый час использования транскрибация не подойдёт под ваш workflow — нет смысла платить.

Автор и создатель Диктуй — . Кейсы транскрибации диктофона, видео и vibe-coding с примерами и точностью на русском — в блоге.