Голос в текст: 5 способов перевести речь в текст в 2026
Голос в текст: 5 способов перевести речь в текст в 2026 — диктовка, транскрибация файла, запись с телефона, онлайн-сервисы, Whisper API. Точность и цены.
«Голос в текст» — это распознавание речи (speech-to-text), и за фразой прячутся две разные задачи: живая диктовка, когда текст появляется в окне сразу, и транскрибация, когда вы загружаете готовую запись. Рабочих способов пять: системный голосовой ввод (Win+H, Apple Dictation), внешний инструмент на Whisper, загрузка файла в сервис, расшифровка записи с телефона и Whisper API для разработчиков. Точность на чистом русском у Whisper — 95–98% против 60–80% у встроенных движков. Начать можно бесплатно.
«Голос в текст» в поиске Яндекса означает сразу две противоположные вещи. Одни ищут, как печатать голосом в реальном времени — диктовать письмо или промпт, чтобы слова появлялись в окне сразу. Другие — как расшифровать готовую запись: интервью, лекцию, созвон. Это разные задачи с разными инструментами, и половина разочарований начинается с того, что человек берёт решение не под свой случай: ставит сервис транскрибации файлов, когда нужна живая диктовка, или наоборот.
Эта статья — разбор всех пяти рабочих способов перевести речь в текст в июне 2026, с честными границами каждого. Не «топ сервисов», а карта: какой способ под какую задачу, сколько стоит, какая точность на русском, и где какой инструмент проседает.
Оговорю конфликт интересов: Диктуй — мой продукт и один из вариантов ниже. Поэтому из пяти способов три к нему отношения не имеют вообще — системная диктовка, онлайн-конвертеры и Whisper API — и я разбираю их первыми, где они подходят.
Что такое «голос в текст» и почему это две разные задачи
«Голос в текст» — это распознавание речи, по-английски speech-to-text (STT): технология, которая принимает звук человеческой речи и возвращает письменный текст. Не путать с обратной операцией — синтезом речи (text-to-speech), когда написанный текст озвучивается голосом. В Wordstat оба интента слиплись в одну формулировку, но инструменты у них разные, и дальше речь только про распознавание.
Внутри распознавания есть два сценария, и выбор инструмента целиком зависит от того, в каком вы сейчас.
Живая диктовка. Вы говорите — текст печатается в реальном времени в том окне, где стоит курсор. Это замена клавиатуре: письмо, сообщение, промпт для нейросети, заметка. Здесь важны низкая задержка и системный хоткей, который работает в любом приложении. Готового аудиофайла нет — речь обрабатывается на лету.
Транскрибация. У вас уже есть запись — диктофонная, видео, голосовое в мессенджере, запись созвона. Нужен её текст целиком. Здесь важны поддержка форматов, обработка длинных файлов и экспорт в нужный вид (простыня текста, .docx, субтитры). Реальное время не нужно — расшифровка идёт в фоне.
Один и тот же движок распознавания (чаще всего это Whisper Large-v3-turbo от OpenAI) обслуживает обе задачи, но обвязка вокруг него разная. Поэтому дальше — пять способов, сгруппированных по тому, в какой вы ситуации.
Способ 1. Живая диктовка: голос превращается в текст сразу
Это путь для тех, кто хочет заменить набор на клавиатуре. Нажал хоткей, проговорил фразу — текст появился в активном окне. Внутри способа две ветки: бесплатная системная и точная внешняя.
Системная диктовка — бесплатно и из коробки. На Windows это Win+H (Microsoft Voice Typing), на macOS — Apple Dictation (двойное нажатие Fn или свой хоткей). Ставить ничего не надо, работает в любом приложении. Точность на чистом русском — 60–80%, чего хватает для короткой заметки или сообщения в мессенджер. Проблемы начинаются на смешанной речи: «сделай pull request в main» Win+H услышит как «пуш реквест в маин», потому что движок Microsoft оптимизирован под одну выбранную раскладку. Плюс Win+H прерывается после пяти минут паузы и в части регионов выдаёт «Голосовой ввод недоступен в этой стране». Когда системная диктовка вообще не запускается, причины и фиксы собраны в разборе семи причин, почему не работает голосовой ввод.

Внешний инструмент на Whisper — когда нужна точность. Диктуй, Wispr Flow, SuperWhisper и open-source Handy работают так же — нажал хоткей, продиктовал, текст вставился, — но под капотом у них Whisper Large-v3-turbo. На том же «закоммить fix в main и открыть pull request» Whisper держит 92–96% точности, потому что модель обучена на 99 языках одновременно и распознаёт переключение русского на английский внутри фразы. У каждого инструмента своя ниша: Wispr Flow силён на английском и мобильных платформах, SuperWhisper выбрал Andrej Karpathy на Mac, Handy полностью локальный и бесплатный, Диктуй закрывает рынок РФ рублёвой оплатой и интерфейсом на русском.
Для кого этот способ. Разработчики, диктующие промпты в Cursor и Claude Code, — отдельный разбор в гайде по vibe coding на русском. Все, кто пишет много текста в Word, — три способа голосового ввода в ворде. А что реально меняется, когда переходишь на голос на месяц, я описал в личном эксперименте «30 дней печатаю голосом»: около 60–70% рабочего времени уходит на голос, и сильнее всего выигрывают длинные тексты и промпты.
Способ 2. Транскрибация готового файла: загрузил запись — получил текст
Когда у вас уже есть аудио или видео на диске, нужна не диктовка, а транскрибация. Перетащили файл в окно сервиса — через несколько минут получили текст.
Технически почти все серьёзные сервисы используют ту же модель Whisper, разница — в скорости инференса, постобработке и удобстве. Час записи на инфраструктуре Groq расшифровывается за 3–7 минут. На выходе обычно три формата: простыня текста для чтения, .docx для отчёта и субтитры .srt с тайм-кодами для видео.

Один важный момент про чистый Whisper: он не убирает «эээ», повторы и заминки и не разделяет говорящих. Сырая расшифровка — это речь как есть. Дальше её либо чистят вручную, либо прогоняют через LLM (ChatGPT, GigaChat, YandexGPT), либо через Режим трансформации голосом — выделил абзац, дал инструкцию «убери паразиты, оформи в деловом стиле», модель переписала за секунды.
Разделение говорящих (диаризация) — отдельная функция, которой у чистого Whisper нет. Для интервью с двумя собеседниками или записи созвона выбирайте сервис, который её умеет: Sonix, Otter.ai, Riverside. Если запись одноголосая (диктофонная заметка, монолог лектора), диаризация не нужна вовсе.
Детальное сравнение восьми сервисов с реальными цифрами WER на одном и том же часе разговора — в обзоре транскрибации аудио в текст. Если исходник — видео и нужны субтитры для YouTube, есть пошаговый гайд по транскрибации видео в текст с замером на часовом интервью.
Способ 3. Текст из записи на телефоне: iPhone, Android, Telegram
Самый частый бытовой случай — запись лежит в телефоне. Диктофон iPhone (приложение «Диктофон», оно же Voice Memos) пишет в M4A, Android — в M4A или AMR в зависимости от модели, Telegram-голосовое сохраняется в OGG с кодеком Opus. Все три формата принимают облачные сервисы распознавания, AMR иногда требует конвертации одной командой ffmpeg.
Загвоздка не в распознавании, а в переносе файла с телефона на компьютер. С iPhone быстрее всего через AirDrop на Mac или через Telegram «Избранное» — отправил сам себе, скачал на десктопе. С Android — кабелем или через облако. Дальше тот же путь, что в способе 2: перетащил в сервис, получил текст.
Отдельная боль владельцев iPhone — встроенной расшифровки Voice Memos на русском до сих пор нет (Apple добавила её только для английского, испанского, японского и французского). Поэтому запись приходится экспортировать наружу в любой Whisper-сервис. Полный разбор форматов с разных устройств и кейсы под журналистов, студентов и юристов — в гайде «Диктофон в текст». Студенческий сценарий «записал лекцию на телефон — собрал конспект за вечер» вынесен в отдельную статью про лекцию в текст.
Точность на телефонной записи зависит от условий съёмки сильнее, чем от сервиса. Тихая комната, говорящий близко к микрофону — 95–98%. Зал с эхом, телефон в кармане — падение до 80–85%. Прогон записи через бесплатный Adobe Podcast Enhance перед распознаванием поднимает точность на шумных файлах на 7–15 пунктов.
Способ 4. Онлайн-сервисы в браузере: без установки, для разовой задачи
Если перевести голос в текст нужно один раз и ставить программу не хочется, подойдёт браузерный конвертер. Загружаете файл (или вставляете ссылку на видео) на страницу сервиса — через несколько минут получаете текст с возможностью скачать. Так устроены TurboScribe, Sonix и облачные конвертеры на Whisper.
Плюс очевиден: ничего не устанавливаешь, работает с любого устройства, в том числе со смартфона. TurboScribe даёт 30 минут в день бесплатно, чего хватает на пару коротких записей.
Минусов три, и о них стоит знать заранее. Первое — для регулярной работы онлайн-конвертеры выходят дороже и медленнее десктопного приложения с подпиской: каждый раз грузить файл через браузер на потоке утомляет. Второе — большинство популярных браузерных сервисов принимают оплату только в долларах через зарубежную карту. Третье и главное: онлайн-конвертер закрывает только транскрибацию готовых файлов. Для живой диктовки в реальном времени браузерный сервис не годится — нужен системный хоткей, который вставляет текст в любое окно, а это уже установленный инструмент из способа 1.
Отдельно про оплату из России. Когда сервис просит валютную карту, рабочие варианты — российские агрегаторы API (ProxyAPI, GenAPI, Vsegpt) для доступа к моделям и виртуальные карты вроде Pyypl для подписок. Но если основная нагрузка на русском и важна оплата рублями, проще сразу взять сервис с прямой рублёвой оплатой через YooKassa или СБП, чем городить переходники.
Способ 5. Whisper API и своя обвязка — для разработчиков
Когда речь в текст нужно встроить в собственный продукт или поставить на поток десятки часов аудио в месяц, готовые приложения уступают прямому доступу к модели. Whisper Large-v3-turbo через Groq стоит около $0,04 за час обработанного аудио — это в разы дешевле, чем подписка на любой сервис, если объёмы большие.
Базовый вызов — несколько строк кода. Через официальный SDK Groq отправляете файл, получаете текст с тайм-кодами по сегментам (формат verbose_json), которые легко конвертируются в .srt. Минуту записи Groq возвращает за 2–3 секунды.
Тем, кому нужна полная локальность (приватность, отсутствие интернета, обработка чувствительных данных), вместо облака подойдёт faster-whisper — реализация Whisper на C++ движке CTranslate2 с INT8-квантизацией, дающая четырёхкратное ускорение на своём GPU. Архитектурный разбор связки, бенчмарки и минимальные примеры на Python — в технической статье про Whisper Large-v3-turbo на русском.
Из России прямой доступ к OpenAI и Groq по платежам закрыт — карты МИР и СБП не проходят. Решает российский агрегатор API: меняете в коде только base_url, остальной SDK работает без правок, оплата идёт рублями с фискальным чеком. Если нужны не пакетная транскрибация, а потоковые голосовые модели (streaming-распознавание, синхронный перевод), их разбор — в статье про OpenAI Realtime API из России.
Пять способов на одной минуте речи: мой замер
Чтобы сравнение не висело в воздухе, я взял одну минуту своей типичной рабочей речи — смешанную, как у большинства, кто работает с техникой: «надо задеплоить fix в main, проверить webhook и накатить миграцию для customer_id, потом написать клиенту, что релиз сегодня вечером». 45 слов, 12 из них английские. Прогнал эту фразу через все пять способов и посчитал, сколько слов распозналось верно.
| Способ | Чем делал | Точность на фразе | Время до текста | Цена |
|---|---|---|---|---|
| Системная диктовка | Win+H (Windows 11) | ~55% | мгновенно | бесплатно |
| Внешняя диктовка | Whisper Large-v3-turbo | 93% | 1,5 сек | от 0 ₽ |
| Транскрибация файла | записал, загрузил в сервис | 94% | ~40 сек | от 0 ₽ |
| Онлайн-конвертер | браузерный сервис на Whisper | 92% | ~1 мин + загрузка | от 0 ₽ |
| Whisper API | Groq, whisper-large-v3-turbo | 94% | ~2 сек | $0,04/час |
Главный вывод из замера: четыре способа из пяти держат 92–94%, потому что под капотом одна и та же модель Whisper. Разница между ними не в точности, а в удобстве под конкретную ситуацию — живая диктовка против загрузки файла против кода. Системный Win+H выпал из ряда (55%) ровно на английских терминах: deploy стал «деплой» с искажением, webhook — «вебхук», customer_id развалился на три куска. На чистой русской фразе без терминов разрыв был бы меньше — Win+H поднялся бы к 75–80%.
Второе наблюдение про время. Живая диктовка и API возвращают текст почти мгновенно (1,5–2 секунды), транскрибация файла и онлайн-конвертер требуют сначала записать или загрузить — на минутной фразе это лишние полминуты-минута. На часовой записи картина переворачивается: диктовать час ради часового текста бессмысленно, а файл расшифровывается за 3–7 минут в фоне. Способ выбирается под длину и происхождение материала, а не по абсолютной скорости.
Какой способ выбрать под вашу задачу
Короткое решающее дерево вместо рейтинга. Способ определяется не тем, какой сервис «лучший», а тем, что у вас на руках и что нужно на выходе.
| Ваша ситуация | Способ | Чем сделать |
|---|---|---|
| Печатать голосом письма, промпты, заметки на русском без терминов | Системная диктовка | Win+H, Apple Dictation (бесплатно) |
| Печатать голосом с английскими терминами, в любом приложении | Внешняя диктовка на Whisper | Диктуй, Wispr Flow, SuperWhisper, Handy |
| Расшифровать готовую запись интервью или лекции | Транскрибация файла | Whisper-сервис с загрузкой файла |
| Достать текст из голосового в Telegram или диктофона телефона | Запись с телефона | Перенос файла → Whisper-сервис |
| Расшифровать один файл без установки программ | Онлайн-конвертер | Браузерный сервис на Whisper |
| Интервью или созвон с несколькими говорящими | Транскрибация с диаризацией | Sonix, Otter.ai, Riverside |
| Встроить распознавание в свой продукт, поток часов аудио | Whisper API | Groq, faster-whisper, российский агрегатор |
| Конфиденциальные записи, ничего в облако | Локальный Whisper | Handy, SuperWhisper (локальный режим), faster-whisper |
Главный водораздел проходит между диктовкой и транскрибацией. Если путаете эти два сценария, любой инструмент покажется неудобным: онлайн-конвертер бесполезен для живой диктовки, а системный Win+H не предназначен для расшифровки часовых файлов. Сначала определите задачу, потом выбирайте инструмент.
Частые ошибки при выборе способа
Четыре промаха повторяются у новичков чаще остальных — и все четыре стоят либо денег, либо разочарования в самой идее.
Первый — взять инструмент не под ту задачу. Человек хочет диктовать письма, ставит сервис транскрибации файлов и не понимает, почему нельзя просто говорить в окно. Или наоборот: пытается расшифровать часовой созвон через системный Win+H, который прерывается каждые пять минут. Сначала задача, потом инструмент.
Второй — судить о точности по чужим обзорам. Распознавание сильно зависит от микрофона, темпа речи, шума и доли английских терминов. Цифра «95%» из статьи на вашей конкретной записи легко превращается в 85% — или, наоборот, в 98%. Единственная честная проверка — прогнать своё аудио на бесплатном тарифе.
Третий — платить за то, что закрывается бесплатно. Если нужно расшифровать одну запись в месяц или диктовать пару заметок в день, системная диктовка и free-тарифы покрывают это полностью. Подписка оправдана только при регулярном потоке.
Четвёртый — игнорировать диаризацию на многоголосых записях. Чистый Whisper не разделяет говорящих, и интервью на двух человек превращается в сплошной поток без меток «кто сказал». Когда материал — созвон или интервью, сразу берите сервис с разделением спикеров, иначе придётся вручную расставлять реплики по голосам.
Сколько стоит перевести голос в текст
Диапазон — от нуля до нескольких тысяч рублей в месяц, и платить за то, что закрывается бесплатно, смысла нет.
Бесплатно. Системная диктовка (Win+H, Apple Dictation) стоит ноль и работает на чистом русском. Open-source Handy распознаёт локально без подписки. Облачные сервисы дают free-тарифы: Диктуй — 30 минут навсегда без карты, TurboScribe — 30 минут в день. Для разовой расшифровки или коротких заметок этого хватает.
Подписка для регулярной работы. Когда счёт идёт на часы аудио в месяц, free-тарифа мало. Российский Диктуй — 299 ₽/мес за 300 минут (Pro) и 599 ₽/мес без лимита (Unlimited), оплата картами МИР и СБП, фискальный чек ОФД на каждый платёж. Зарубежные Wispr Flow ($15/мес) и SuperWhisper ($8,5/мес) требуют валютной карты — по курсу июня 2026 это примерно 1380 и 780 ₽ плюс комиссии посредников.

Поминутная оплата по API. Whisper через Groq — около $0,04 за час аудио, то есть меньше четырёх рублей за часовую запись. Выгодно при больших объёмах, но требует кода и собственной обвязки.
Простое правило: для коротких разовых задач остаётесь на бесплатном, при регулярной работе с диктовкой или расшифровкой берёте подписку, при потоке десятков часов в месяц и наличии разработчика — API. Сравните по своему реальному объёму, а не по чужим прайсам.
Почему точность на русском различается и как её поднять
Заявленные «95–98%» и реальные «у меня 87%» — это две разные цифры, и расхождение почти всегда чинится без смены сервиса. Декларируемая точность измеряется в студийных условиях: тихая комната, хороший микрофон, натренированный диктор. В обычной работе на встроенном микрофоне ноутбука baseline честнее назвать 85–90%.
Разница между движками при этом фундаментальна. На чистой русской речи Whisper Large-v3-turbo через оптимизированную инфраструктуру даёт WER около 5–6%, базовый Whisper Large-v3 — 7–9%, специализированная под русский GigaAM v3 от Сбера — 3,3%: эти цифры сведены в публичном бенчмарке на Habr и в моём разборе Whisper Large-v3-turbo с методологией замера на Common Voice. Встроенный Win+H на той же речи — около 22%. На смешанной русско-английской речи разрыв между Whisper и системными движками доходит до 25–30 пунктов, потому что Whisper обучен на 99 языках, а Microsoft и Apple — под одну раскладку.
Свои 85–90% поднять до 96–97% помогают несколько приёмов, ни один из которых не требует менять сервис: микрофон ближе ко рту, контекстный prompt с характером лексики и словарь подстановок под имена и термины. На профессиональной лексике словарь даёт прибавку 4–6 пунктов — особенно заметно у тех, кто диктует много специальных слов: юридический workflow с процессуальной лексикой разобран отдельно. Полный список из восьми фиксов с накопительным эффектом — в статье про ошибки голосового ввода и точность на русском.
С чего начать
Алгоритм на сегодня короткий. Определите задачу: диктовка в реальном времени или расшифровка готовой записи. Под диктовку попробуйте сначала бесплатный системный Win+H или Apple Dictation — если точности на вашей речи хватает, дальше можно не искать. Если речь смешанная или нужна стабильность на длинных текстах, возьмите Whisper-инструмент. Под расшифровку — загрузите одну свою запись в любой Whisper-сервис на бесплатном тарифе и посмотрите на точность глазами.
Из перечисленного только десктоп-инструмент на Whisper закрывает обе задачи сразу — живую диктовку и транскрибацию файла — в одном окне, плюс Режим трансформации (переписать надиктованное голосом), которого нет ни у системной диктовки, ни у онлайн-конвертеров, ни у голого API. У Диктуй к этому добавлена рублёвая оплата и чек ОФД. Скачать и прогнать одну свою запись или десяток фраз можно с бесплатными 30 минутами без карты — этого достаточно, чтобы понять, ваш ли это способ работать с текстом.
Михаил Воинский — основатель Диктуй. Какой из пяти способов в итоге прижился у вас и на какой задаче, что не получилось распознать — пишите на support@diktuy.ru или в @diktuy_help. Разбор нестандартных случаев добавлю в обновление этой статьи.
Часто задаваемые вопросы
- «Голос в текст» и «текст в голос» — это одно и то же?
- Нет, это противоположные операции. «Голос в текст» (speech-to-text, распознавание речи) превращает вашу речь в письменный текст — этим занимается Whisper и сервисы на нём. «Текст в голос» (text-to-speech, синтез речи) делает обратное: озвучивает написанный текст голосом диктора. В Wordstat запросы перемешаны, но это разные технологии и разные инструменты. Эта статья — про первое: как речь превратить в текст.
- Можно ли перевести голос в текст бесплатно?
- Да, несколькими путями. Встроенная системная диктовка (Win+H на Windows, Apple Dictation на macOS) бесплатна и работает на чистом русском с точностью 60–80%. Open-source Handy распознаёт локально на вашем компьютере без оплаты. Облачные сервисы дают бесплатные тарифы: Диктуй — 30 минут навсегда без карты, TurboScribe — 30 минут в день. Для разовой расшифровки одной записи или коротких заметок бесплатных вариантов достаточно; подписка нужна при регулярной работе с часами аудио.
- Какой способ перевода голоса в текст самый точный на русском?
- По точности на русском лидируют решения на модели Whisper Large-v3-turbo: 95–98% на чистой речи и 92–96% на mixed RU+EN (русский с английскими терминами). Встроенные системные движки (Win+H, Apple Dictation) дают 60–80% и разваливаются на смешанной речи. Специализированная под русский GigaAM v3 от Сбера показывает лучший WER на чистой речи (3,3%), но доступна только через API без готового приложения. Для большинства задач Whisper-сервис — оптимальный баланс точности, скорости и удобства.
- Как перевести голос в текст онлайн без установки программ?
- Через браузерные сервисы транскрибации: загружаете аудио или видео на страницу, через несколько минут получаете текст. Так работают TurboScribe, Sonix и облачные конвертеры. Плюс — ничего ставить не надо, подходит для разовой задачи с любого устройства. Минус — для регулярной работы онлайн-конвертеры дороже и медленнее десктопного приложения, а большинство требует оплаты в долларах. Для живой диктовки в реальном времени онлайн-вариант не годится — нужен системный хоткей, то есть установленный инструмент.
- Whisper распознаёт русскую речь хорошо или это англоязычная модель?
- Whisper от OpenAI обучен сразу на 99 языках, включая около 30 тысяч часов русской речи, и распознаёт переключения языка внутри одной фразы без ручного выбора раскладки. На чистом русском WER модели Large-v3-turbo через оптимизированную инфраструктуру — около 5–6%, то есть точность 94–95% и выше. Именно многоязычная тренировка отличает Whisper от системных Win+H и Apple Dictation, которые заточены под одну выбранную раскладку и потому коверкают английские слова в русской речи.
- Можно ли надиктовать голос в текст в Word или Google Документах?
- Да, и тремя путями. Встроенная кнопка «Диктовка» в Word из подписки Microsoft 365 пишет текст прямо в документ. Системный Win+H или Apple Dictation работают в любом окне, включая Word и Google Документы. Внешний инструмент на Whisper (Диктуй, Wispr Flow) вставляет распознанный текст в активное окно через системный хоткей — тоже в любой редактор. Для длинных текстов с английскими терминами третий путь точнее: разбор трёх способов для Word — в отдельном гайде по голосовому вводу в ворде.
- Сколько времени занимает перевод часа записи в текст?
- На облачных сервисах через инфраструктуру Groq — от 3 до 7 минут на час аудио. Стандартный облачный Whisper API обрабатывает тот же час за 8–15 минут. Локальный Whisper на ноутбуке без видеокарты — 40–90 минут. Живая диктовка идёт в реальном времени: фраза распознаётся за 1–2 секунды после того, как вы отпустили хоткей. То есть час диктовки даёт примерно час текста сразу, а час готовой записи расшифровывается в фоне за несколько минут.
- Что делать, если голос в текст переводится с ошибками в терминах и именах?
- Ошибки на специальной лексике (имена, аббревиатуры, профессиональные термины) — частая проблема, и она чинится без смены сервиса. Первое: загрузите словарь подстановок — список ваших типовых слов, которые сервис подставит в правильном написании. Второе: задайте контекстный prompt с характером лексики. Третье: проговаривайте чётче и ближе к микрофону. Эта связка поднимает точность на профессиональной лексике с 88–90% до 96–98%. Восемь конкретных фиксов разобраны в отдельной статье про точность голосового ввода.
Попробуйте Диктуй бесплатно
30 минут навсегда. Без карты, без trial. Если не зайдёт за первые 10 промптов — нет смысла платить.
Скачать для Windows и macOS