голосовой ввод ∙ транскрибация

Голос в текст: 5 способов перевести речь в текст в 2026

Голос в текст: 5 способов перевести речь в текст в 2026 — диктовка, транскрибация файла, запись с телефона, онлайн-сервисы, Whisper API. Точность и цены.

4 июня 202615 минут чтенияавтор Михаил Воинский, основатель Диктуй

Коротко

«Голос в текст» — это распознавание речи (speech-to-text), и за фразой прячутся две разные задачи: живая диктовка, когда текст появляется в окне сразу, и транскрибация, когда вы загружаете готовую запись. Рабочих способов пять: системный голосовой ввод (Win+H, Apple Dictation), внешний инструмент на Whisper, загрузка файла в сервис, расшифровка записи с телефона и Whisper API для разработчиков. Точность на чистом русском у Whisper — 95–98% против 60–80% у встроенных движков. Начать можно бесплатно.

«Голос в текст» в поиске Яндекса означает сразу две противоположные вещи. Одни ищут, как печатать голосом в реальном времени — диктовать письмо или промпт, чтобы слова появлялись в окне сразу. Другие — как расшифровать готовую запись: интервью, лекцию, созвон. Это разные задачи с разными инструментами, и половина разочарований начинается с того, что человек берёт решение не под свой случай: ставит сервис транскрибации файлов, когда нужна живая диктовка, или наоборот.

Эта статья — разбор всех пяти рабочих способов перевести речь в текст в июне 2026, с честными границами каждого. Не «топ сервисов», а карта: какой способ под какую задачу, сколько стоит, какая точность на русском, и где какой инструмент проседает.

Оговорю конфликт интересов: Диктуй — мой продукт и один из вариантов ниже. Поэтому из пяти способов три к нему отношения не имеют вообще — системная диктовка, онлайн-конвертеры и Whisper API — и я разбираю их первыми, где они подходят.

Что такое «голос в текст» и почему это две разные задачи

«Голос в текст» — это распознавание речи, по-английски speech-to-text (STT): технология, которая принимает звук человеческой речи и возвращает письменный текст. Не путать с обратной операцией — синтезом речи (text-to-speech), когда написанный текст озвучивается голосом. В Wordstat оба интента слиплись в одну формулировку, но инструменты у них разные, и дальше речь только про распознавание.

Внутри распознавания есть два сценария, и выбор инструмента целиком зависит от того, в каком вы сейчас.

Живая диктовка. Вы говорите — текст печатается в реальном времени в том окне, где стоит курсор. Это замена клавиатуре: письмо, сообщение, промпт для нейросети, заметка. Здесь важны низкая задержка и системный хоткей, который работает в любом приложении. Готового аудиофайла нет — речь обрабатывается на лету.

Транскрибация. У вас уже есть запись — диктофонная, видео, голосовое в мессенджере, запись созвона. Нужен её текст целиком. Здесь важны поддержка форматов, обработка длинных файлов и экспорт в нужный вид (простыня текста, .docx, субтитры). Реальное время не нужно — расшифровка идёт в фоне.

Один и тот же движок распознавания (чаще всего это Whisper Large-v3-turbo от OpenAI) обслуживает обе задачи, но обвязка вокруг него разная. Поэтому дальше — пять способов, сгруппированных по тому, в какой вы ситуации.

Способ 1. Живая диктовка: голос превращается в текст сразу

Это путь для тех, кто хочет заменить набор на клавиатуре. Нажал хоткей, проговорил фразу — текст появился в активном окне. Внутри способа две ветки: бесплатная системная и точная внешняя.

Системная диктовка — бесплатно и из коробки. На Windows это Win+H (Microsoft Voice Typing), на macOS — Apple Dictation (двойное нажатие Fn или свой хоткей). Ставить ничего не надо, работает в любом приложении. Точность на чистом русском — 60–80%, чего хватает для короткой заметки или сообщения в мессенджер. Проблемы начинаются на смешанной речи: «сделай pull request в main» Win+H услышит как «пуш реквест в маин», потому что движок Microsoft оптимизирован под одну выбранную раскладку. Плюс Win+H прерывается после пяти минут паузы и в части регионов выдаёт «Голосовой ввод недоступен в этой стране». Когда системная диктовка вообще не запускается, причины и фиксы собраны в разборе семи причин, почему не работает голосовой ввод. Встроенная диктовка Windows при этом обновляется: в июне 2026 Microsoft добавил Fluid Dictation с локальной моделью, но пока только для английского и на новых ПК Copilot+ PC — что это значит для русскоязычного пользователя, разобрано в отдельной статье про голосовой ввод в Windows 11.

Живая диктовка в Диктуй: один хоткей запускает запись, второй — Режим трансформации, который переписывает уже надиктованное по голосовой инструкции. Текст вставляется в активное окно — Word, браузер, мессенджер.

Внешний инструмент на Whisper — когда нужна точность. Диктуй, Wispr Flow, SuperWhisper и open-source Handy работают так же — нажал хоткей, продиктовал, текст вставился, — но под капотом у них Whisper Large-v3-turbo. На том же «закоммить fix в main и открыть pull request» Whisper держит 92–96% точности, потому что модель обучена на 99 языках одновременно и распознаёт переключение русского на английский внутри фразы. У каждого инструмента своя ниша: Wispr Flow силён на английском и мобильных платформах, SuperWhisper выбрал Andrej Karpathy на Mac, Handy полностью локальный и бесплатный, Диктуй закрывает рынок РФ рублёвой оплатой и интерфейсом на русском.

Для кого этот способ. Разработчики, диктующие промпты в Cursor и Claude Code, — отдельный разбор в гайде по vibe coding на русском. Все, кто пишет много текста в Word, — три способа голосового ввода в ворде. А что реально меняется, когда переходишь на голос на месяц, я описал в личном эксперименте «30 дней печатаю голосом»: около 60–70% рабочего времени уходит на голос, и сильнее всего выигрывают длинные тексты и промпты.

Способ 2. Транскрибация готового файла: загрузил запись — получил текст

Когда у вас уже есть аудио или видео на диске, нужна не диктовка, а транскрибация. Перетащили файл в окно сервиса — через несколько минут получили текст.

Технически почти все серьёзные сервисы используют ту же модель Whisper, разница — в скорости инференса, постобработке и удобстве. Час записи на инфраструктуре Groq расшифровывается за 3–7 минут. На выходе обычно три формата: простыня текста для чтения, .docx для отчёта и субтитры .srt с тайм-кодами для видео.

Транскрибация готового файла: запись перетаскивается в окно, поддерживаются M4A с iPhone, MP3, WAV, OGG из Telegram и MP4 — час аудио возвращается текстом за 3–7 минут на инфраструктуре Groq.

Один важный момент про чистый Whisper: он не убирает «эээ», повторы и заминки и не разделяет говорящих. Сырая расшифровка — это речь как есть. Дальше её либо чистят вручную, либо прогоняют через LLM (ChatGPT, GigaChat, YandexGPT), либо через Режим трансформации голосом — выделил абзац, дал инструкцию «убери паразиты, оформи в деловом стиле», модель переписала за секунды.

Разделение говорящих (диаризация) — отдельная функция, которой у чистого Whisper нет. Для интервью с двумя собеседниками или записи созвона выбирайте сервис, который её умеет: Sonix, Otter.ai, Riverside. Если запись одноголосая (диктофонная заметка, монолог лектора), диаризация не нужна вовсе.

Детальное сравнение восьми сервисов с реальными цифрами WER на одном и том же часе разговора — в обзоре транскрибации аудио в текст. Если исходник — видео и нужны субтитры для YouTube, есть пошаговый гайд по транскрибации видео в текст с замером на часовом интервью.

Способ 3. Текст из записи на телефоне: iPhone, Android, Telegram

Самый частый бытовой случай — запись лежит в телефоне. Диктофон iPhone (приложение «Диктофон», оно же Voice Memos) пишет в M4A, Android — в M4A или AMR в зависимости от модели, Telegram-голосовое сохраняется в OGG с кодеком Opus. Все три формата принимают облачные сервисы распознавания, AMR иногда требует конвертации одной командой ffmpeg. А когда голосовое нужно прочитать прямо в чате, не сохраняя файл, у мессенджеров есть встроенная расшифровка — её разбор по Telegram, ВКонтакте, WhatsApp и МАКС в отдельной статье про голосовое сообщение в текст.

Загвоздка не в распознавании, а в переносе файла с телефона на компьютер. С iPhone быстрее всего через AirDrop на Mac или через Telegram «Избранное» — отправил сам себе, скачал на десктопе. С Android — кабелем или через облако. Дальше тот же путь, что в способе 2: перетащил в сервис, получил текст.

Отдельная боль владельцев iPhone — встроенной расшифровки Voice Memos на русском до сих пор нет (Apple добавила её только для английского, испанского, японского и французского). Поэтому запись приходится экспортировать наружу в любой Whisper-сервис. Как пройти этот маршрут прямо с телефона без компьютера, плюс отдельно по Samsung Galaxy AI и Pixel на Android, разобрано в гайде «Диктофон в текст на iPhone и Android» с форматами и кейсами под журналистов, студентов и юристов. Студенческий сценарий «записал лекцию на телефон — собрал конспект за вечер» вынесен в отдельную статью про лекцию в текст.

Точность на телефонной записи зависит от условий съёмки сильнее, чем от сервиса. Тихая комната, говорящий близко к микрофону — 95–98%. Зал с эхом, телефон в кармане — падение до 80–85%. Прогон записи через бесплатный Adobe Podcast Enhance перед распознаванием поднимает точность на шумных файлах на 7–15 пунктов.

Способ 4. Онлайн-сервисы в браузере: без установки, для разовой задачи

Если перевести голос в текст нужно один раз и ставить программу не хочется, подойдёт браузерный конвертер. Загружаете файл (или вставляете ссылку на видео) на страницу сервиса — через несколько минут получаете текст с возможностью скачать. Так устроены TurboScribe, Sonix и облачные конвертеры на Whisper.

Плюс очевиден: ничего не устанавливаешь, работает с любого устройства, в том числе со смартфона. TurboScribe даёт 30 минут в день бесплатно, чего хватает на пару коротких записей.

Минусов три, и о них стоит знать заранее. Первое — для регулярной работы онлайн-конвертеры выходят дороже и медленнее десктопного приложения с подпиской: каждый раз грузить файл через браузер на потоке утомляет. Второе — большинство популярных браузерных сервисов принимают оплату только в долларах через зарубежную карту. Третье и главное: онлайн-конвертер закрывает только транскрибацию готовых файлов. Для живой диктовки в реальном времени браузерный сервис не годится — нужен системный хоткей, который вставляет текст в любое окно, а это уже установленный инструмент из способа 1.

Отдельно про оплату из России. Когда сервис просит валютную карту, рабочие варианты — российские агрегаторы API (ProxyAPI, GenAPI, Vsegpt) для доступа к моделям и виртуальные карты вроде Pyypl для подписок. Но если основная нагрузка на русском и важна оплата рублями, проще сразу взять сервис с прямой рублёвой оплатой через YooKassa или СБП, чем городить переходники.

Способ 5. Whisper API и своя обвязка — для разработчиков

Когда речь в текст нужно встроить в собственный продукт или поставить на поток десятки часов аудио в месяц, готовые приложения уступают прямому доступу к модели. Whisper Large-v3-turbo через Groq стоит около $0,04 за час обработанного аудио — это в разы дешевле, чем подписка на любой сервис, если объёмы большие.

Базовый вызов — несколько строк кода. Через официальный SDK Groq отправляете файл, получаете текст с тайм-кодами по сегментам (формат verbose_json), которые легко конвертируются в .srt. Минуту записи Groq возвращает за 2–3 секунды.

Тем, кому нужна полная локальность (приватность, отсутствие интернета, обработка чувствительных данных), вместо облака подойдёт faster-whisper — реализация Whisper на C++ движке CTranslate2 с INT8-квантизацией, дающая четырёхкратное ускорение на своём GPU. Архитектурный разбор связки, бенчмарки и минимальные примеры на Python — в технической статье про Whisper Large-v3-turbo на русском.

Из России прямой доступ к OpenAI и Groq по платежам закрыт — карты МИР и СБП не проходят. Решает российский агрегатор API: меняете в коде только base_url, остальной SDK работает без правок, оплата идёт рублями с фискальным чеком. Если нужны не пакетная транскрибация, а потоковые голосовые модели (streaming-распознавание, синхронный перевод), их разбор — в статье про OpenAI Realtime API из России.

Пять способов на одной минуте речи: мой замер

Чтобы сравнение не висело в воздухе, я взял одну минуту своей типичной рабочей речи — смешанную, как у большинства, кто работает с техникой: «надо задеплоить fix в main, проверить webhook и накатить миграцию для customer_id, потом написать клиенту, что релиз сегодня вечером». 45 слов, 12 из них английские. Прогнал эту фразу через все пять способов и посчитал, сколько слов распозналось верно.

Способ	Чем делал	Точность на фразе	Время до текста	Цена
Системная диктовка	Win+H (Windows 11)	~55%	мгновенно	бесплатно
Внешняя диктовка	Whisper Large-v3-turbo	93%	1,5 сек	от 0 ₽
Транскрибация файла	записал, загрузил в сервис	94%	~40 сек	от 0 ₽
Онлайн-конвертер	браузерный сервис на Whisper	92%	~1 мин + загрузка	от 0 ₽
Whisper API	Groq, `whisper-large-v3-turbo`	94%	~2 сек	$0,04/час

Главный вывод из замера: четыре способа из пяти держат 92–94%, потому что под капотом одна и та же модель Whisper. Разница между ними не в точности, а в удобстве под конкретную ситуацию — живая диктовка против загрузки файла против кода. Системный Win+H выпал из ряда (55%) ровно на английских терминах: deploy стал «деплой» с искажением, webhook — «вебхук», customer_id развалился на три куска. На чистой русской фразе без терминов разрыв был бы меньше — Win+H поднялся бы к 75–80%.

Второе наблюдение про время. Живая диктовка и API возвращают текст почти мгновенно (1,5–2 секунды), транскрибация файла и онлайн-конвертер требуют сначала записать или загрузить — на минутной фразе это лишние полминуты-минута. На часовой записи картина переворачивается: диктовать час ради часового текста бессмысленно, а файл расшифровывается за 3–7 минут в фоне. Способ выбирается под длину и происхождение материала, а не по абсолютной скорости.

Какой способ выбрать под вашу задачу

Короткое решающее дерево вместо рейтинга. Способ определяется не тем, какой сервис «лучший», а тем, что у вас на руках и что нужно на выходе.

Ваша ситуация	Способ	Чем сделать
Печатать голосом письма, промпты, заметки на русском без терминов	Системная диктовка	Win+H, Apple Dictation (бесплатно)
Печатать голосом с английскими терминами, в любом приложении	Внешняя диктовка на Whisper	Диктуй, Wispr Flow, SuperWhisper, Handy
Расшифровать готовую запись интервью или лекции	Транскрибация файла	Whisper-сервис с загрузкой файла
Достать текст из голосового в Telegram или диктофона телефона	Запись с телефона	Перенос файла → Whisper-сервис
Расшифровать один файл без установки программ	Онлайн-конвертер	Браузерный сервис на Whisper
Интервью или созвон с несколькими говорящими	Транскрибация с диаризацией	Sonix, Otter.ai, Riverside
Встроить распознавание в свой продукт, поток часов аудио	Whisper API	Groq, faster-whisper, российский агрегатор
Конфиденциальные записи, ничего в облако	Локальный Whisper	Handy, SuperWhisper (локальный режим), faster-whisper

Главный водораздел проходит между диктовкой и транскрибацией. Если путаете эти два сценария, любой инструмент покажется неудобным: онлайн-конвертер бесполезен для живой диктовки, а системный Win+H не предназначен для расшифровки часовых файлов. Сначала определите задачу, потом выбирайте инструмент.

Частые ошибки при выборе способа

Четыре промаха повторяются у новичков чаще остальных — и все четыре стоят либо денег, либо разочарования в самой идее.

Первый — взять инструмент не под ту задачу. Человек хочет диктовать письма, ставит сервис транскрибации файлов и не понимает, почему нельзя просто говорить в окно. Или наоборот: пытается расшифровать часовой созвон через системный Win+H, который прерывается каждые пять минут. Сначала задача, потом инструмент.

Второй — судить о точности по чужим обзорам. Распознавание сильно зависит от микрофона, темпа речи, шума и доли английских терминов. Цифра «95%» из статьи на вашей конкретной записи легко превращается в 85% — или, наоборот, в 98%. Единственная честная проверка — прогнать своё аудио на бесплатном тарифе.

Третий — платить за то, что закрывается бесплатно. Если нужно расшифровать одну запись в месяц или диктовать пару заметок в день, системная диктовка и free-тарифы покрывают это полностью. Подписка оправдана только при регулярном потоке.

Четвёртый — игнорировать диаризацию на многоголосых записях. Чистый Whisper не разделяет говорящих, и интервью на двух человек превращается в сплошной поток без меток «кто сказал». Когда материал — созвон или интервью, сразу берите сервис с разделением спикеров, иначе придётся вручную расставлять реплики по голосам.

Сколько стоит перевести голос в текст

Диапазон — от нуля до нескольких тысяч рублей в месяц, и платить за то, что закрывается бесплатно, смысла нет.

Бесплатно. Системная диктовка (Win+H, Apple Dictation) стоит ноль и работает на чистом русском. Open-source Handy распознаёт локально без подписки. Облачные сервисы дают free-тарифы: Диктуй — 30 минут навсегда без карты, TurboScribe — 30 минут в день. Для разовой расшифровки или коротких заметок этого хватает.

Подписка для регулярной работы. Когда счёт идёт на часы аудио в месяц, free-тарифа мало. Российский Диктуй — 299 ₽/мес за 300 минут (Pro) и 599 ₽/мес без лимита (Unlimited), оплата картами МИР и СБП, фискальный чек ОФД на каждый платёж. Зарубежные Wispr Flow ($15/мес) и SuperWhisper ($8,5/мес) требуют валютной карты — по курсу июня 2026 это примерно 1380 и 780 ₽ плюс комиссии посредников.

Три тарифа Диктуй на июнь 2026: Free 0 ₽ (30 минут навсегда, без карты), Pro 299 ₽/мес (300 минут) и Unlimited 599 ₽/мес (безлимит). Оплата картами МИР и СБП через YooKassa, скидки 10/15/20% за 3/6/12 месяцев.

Поминутная оплата по API. Whisper через Groq — около $0,04 за час аудио, то есть меньше четырёх рублей за часовую запись. Выгодно при больших объёмах, но требует кода и собственной обвязки.

Простое правило: для коротких разовых задач остаётесь на бесплатном, при регулярной работе с диктовкой или расшифровкой берёте подписку, при потоке десятков часов в месяц и наличии разработчика — API. Сравните по своему реальному объёму, а не по чужим прайсам.

Почему точность на русском различается и как её поднять

Заявленные «95–98%» и реальные «у меня 87%» — это две разные цифры, и расхождение почти всегда чинится без смены сервиса. Декларируемая точность измеряется в студийных условиях: тихая комната, хороший микрофон, натренированный диктор. В обычной работе на встроенном микрофоне ноутбука baseline честнее назвать 85–90%.

Разница между движками при этом фундаментальна. На чистой русской речи Whisper Large-v3-turbo через оптимизированную инфраструктуру даёт WER около 5–6%, базовый Whisper Large-v3 — 7–9%, специализированная под русский GigaAM v3 от Сбера — 3,3%: эти цифры сведены в публичном бенчмарке на Habr и в моём разборе Whisper Large-v3-turbo с методологией замера на Common Voice. Встроенный Win+H на той же речи — около 22%. На смешанной русско-английской речи разрыв между Whisper и системными движками доходит до 25–30 пунктов, потому что Whisper обучен на 99 языках, а Microsoft и Apple — под одну раскладку.

Свои 85–90% поднять до 96–97% помогают несколько приёмов, ни один из которых не требует менять сервис: микрофон ближе ко рту, контекстный prompt с характером лексики и словарь подстановок под имена и термины. На профессиональной лексике словарь даёт прибавку 4–6 пунктов — особенно заметно у тех, кто диктует много специальных слов: юридический workflow с процессуальной лексикой разобран отдельно. Полный список из восьми фиксов с накопительным эффектом — в статье про ошибки голосового ввода и точность на русском.

С чего начать

Алгоритм на сегодня короткий. Определите задачу: диктовка в реальном времени или расшифровка готовой записи. Под диктовку попробуйте сначала бесплатный системный Win+H или Apple Dictation — если точности на вашей речи хватает, дальше можно не искать. Если речь смешанная или нужна стабильность на длинных текстах, возьмите Whisper-инструмент. Под расшифровку — загрузите одну свою запись в любой Whisper-сервис на бесплатном тарифе и посмотрите на точность глазами.

Из перечисленного только десктоп-инструмент на Whisper закрывает обе задачи сразу — живую диктовку и транскрибацию файла — в одном окне, плюс Режим трансформации (переписать надиктованное голосом), которого нет ни у системной диктовки, ни у онлайн-конвертеров, ни у голого API. У Диктуй к этому добавлена рублёвая оплата и чек ОФД. Скачать и прогнать одну свою запись или десяток фраз можно с бесплатными 30 минутами без карты — этого достаточно, чтобы понять, ваш ли это способ работать с текстом.

Отдельная история — голосовой ввод как инструмент доступности: для людей с дислексией, СДВГ или моторными ограничениями диктовка снимает барьер печати, но её важно не путать со скринридером и честно понимать, кому она подходит хуже. Это разобрано в статье про голосовой ввод и доступность.

Михаил Воинский — основатель Диктуй. Какой из пяти способов в итоге прижился у вас и на какой задаче, что не получилось распознать — пишите на support@diktuy.ru или в @diktuy_help. Разбор нестандартных случаев добавлю в обновление этой статьи.

Часто задаваемые вопросы

«Голос в текст» и «текст в голос» — это одно и то же?

Нет, это противоположные операции. «Голос в текст» (speech-to-text, распознавание речи) превращает вашу речь в письменный текст — этим занимается Whisper и сервисы на нём. «Текст в голос» (text-to-speech, синтез речи) делает обратное: озвучивает написанный текст голосом диктора. В Wordstat запросы перемешаны, но это разные технологии и разные инструменты. Эта статья — про первое: как речь превратить в текст.

Можно ли перевести голос в текст бесплатно?

Да, несколькими путями. Встроенная системная диктовка (Win+H на Windows, Apple Dictation на macOS) бесплатна и работает на чистом русском с точностью 60–80%. Open-source Handy распознаёт локально на вашем компьютере без оплаты. Облачные сервисы дают бесплатные тарифы: Диктуй — 30 минут навсегда без карты, TurboScribe — 30 минут в день. Для разовой расшифровки одной записи или коротких заметок бесплатных вариантов достаточно; подписка нужна при регулярной работе с часами аудио.

Какой способ перевода голоса в текст самый точный на русском?

По точности на русском лидируют решения на модели Whisper Large-v3-turbo: 95–98% на чистой речи и 92–96% на mixed RU+EN (русский с английскими терминами). Встроенные системные движки (Win+H, Apple Dictation) дают 60–80% и разваливаются на смешанной речи. Специализированная под русский GigaAM v3 от Сбера показывает лучший WER на чистой речи (3,3%), но доступна только через API без готового приложения. Для большинства задач Whisper-сервис — оптимальный баланс точности, скорости и удобства.

Как перевести голос в текст онлайн без установки программ?

Через браузерные сервисы транскрибации: загружаете аудио или видео на страницу, через несколько минут получаете текст. Так работают TurboScribe, Sonix и облачные конвертеры. Плюс — ничего ставить не надо, подходит для разовой задачи с любого устройства. Минус — для регулярной работы онлайн-конвертеры дороже и медленнее десктопного приложения, а большинство требует оплаты в долларах. Для живой диктовки в реальном времени онлайн-вариант не годится — нужен системный хоткей, то есть установленный инструмент.

Whisper распознаёт русскую речь хорошо или это англоязычная модель?

Whisper от OpenAI обучен сразу на 99 языках, включая около 30 тысяч часов русской речи, и распознаёт переключения языка внутри одной фразы без ручного выбора раскладки. На чистом русском WER модели Large-v3-turbo через оптимизированную инфраструктуру — около 5–6%, то есть точность 94–95% и выше. Именно многоязычная тренировка отличает Whisper от системных Win+H и Apple Dictation, которые заточены под одну выбранную раскладку и потому коверкают английские слова в русской речи.

Можно ли надиктовать голос в текст в Word или Google Документах?

Да, и тремя путями. Встроенная кнопка «Диктовка» в Word из подписки Microsoft 365 пишет текст прямо в документ. Системный Win+H или Apple Dictation работают в любом окне, включая Word и Google Документы. Внешний инструмент на Whisper (Диктуй, Wispr Flow) вставляет распознанный текст в активное окно через системный хоткей — тоже в любой редактор. Для длинных текстов с английскими терминами третий путь точнее: разбор трёх способов для Word — в отдельном гайде по голосовому вводу в ворде, а для Google Документов с их ограничениями (один браузер, обрыв по таймеру) — в [гайде по голосовому вводу в Google Документах](/blog/golosovoi-vvod-v-google-dokumentah-2026).

Сколько времени занимает перевод часа записи в текст?

На облачных сервисах через инфраструктуру Groq — от 3 до 7 минут на час аудио. Стандартный облачный Whisper API обрабатывает тот же час за 8–15 минут. Локальный Whisper на ноутбуке без видеокарты — 40–90 минут. Живая диктовка идёт в реальном времени: фраза распознаётся за 1–2 секунды после того, как вы отпустили хоткей. То есть час диктовки даёт примерно час текста сразу, а час готовой записи расшифровывается в фоне за несколько минут.

Что делать, если голос в текст переводится с ошибками в терминах и именах?

Ошибки на специальной лексике (имена, аббревиатуры, профессиональные термины) — частая проблема, и она чинится без смены сервиса. Первое: загрузите словарь подстановок — список ваших типовых слов, которые сервис подставит в правильном написании. Второе: задайте контекстный prompt с характером лексики. Третье: проговаривайте чётче и ближе к микрофону. Эта связка поднимает точность на профессиональной лексике с 88–90% до 96–98%. Восемь конкретных фиксов разобраны в отдельной статье про точность голосового ввода.