Голосовой ввод в Cursor и Claude Code на русском — май 2026
Сравнение 4 решений voice-prompting в Cursor и Claude Code: Win+H, Apple Dictation, Wispr Flow, Диктуй. Цены в рублях, точность mixed RU+EN, слабые места.
В мае 2026 для voice-prompting в Cursor и Claude Code на русском с английскими терминами в одной фразе рабочих вариантов четыре: системная Win+H, системная macOS Dictation, Wispr Flow ($15/мес, валютная карта) и Диктуй (449 ₽/мес, Windows + macOS, оплата картами МИР и СБП). Системные ломаются на смешанной речи. Внешние решения держат mixed RU+EN на 90%+ точности через Whisper-семейство моделей. Cursor 3.3 c /multitask делает диктовку длинных промптов особенно ценной.
Полное раскрытие: я делаю Диктуй — один из инструментов в сравнительной таблице ниже. В тексте 4 решения, моё — в конце списка. Сравнение получилось не потому что мой продукт выигрывает по всем параметрам — он не выигрывает. У Wispr Flow лучше AI-cleanup. У Apple System Dictation лучше латентность на встроенном микрофоне. Описываю фактически, где каждое решение сильнее, и где Диктуй проигрывает.
Открыл Cursor 11 мая 2026, чтобы продиктовать длинный промпт под Composer — и впервые поймал себя на мысли, что у меня нет одной свежей статьи в блоге, где сжато разобрано, какие сейчас есть рабочие варианты voice-prompting в Cursor и Claude Code на русском, если ты не хочешь платить за валютную карту и не хочешь ставить локальный Whisper. Эту пустоту закрою.
Почему голос для vibe coding — не «фишка», а workflow-shift
Vibe coding — слово года 2025 по версии Collins Dictionary — это про написание спецификаций вместо кода. Спецификации длинные. Промпт для Cursor Composer на 200–400 слов с упоминанием 3–5 файлов проекта, edge cases, желаемого стиля кода — типичный кейс. Напечатать такой промпт с переключением раскладки RU/EN — 4–6 минут реального времени. Надиктовать — 60–90 секунд. Это разница между «спросил у AI один раз и пошёл» и «спросил, посмотрел, переформулировал, спросил снова». Контекст-полнота в первом промпте увеличивает шанс на правильный ответ AI с первой попытки — именно тут главный ROI voice-prompting для разработчика.
Цифры по скорости: печать на родном языке — 40–60 слов в минуту, голос — 130–180. На mixed RU+EN с переключением раскладки печать падает до 25–35 wpm, голос держит свои 130–180 (mixed не требует переключения вообще). На промптах длиной 200–400 слов это 2.5–4× прирост, без маркетинговой инфляции.
Второй неочевидный плюс: голосом естественнее объяснять «почему» и «при каком условии», а не только «что». Я раньше писал промпты «перепиши X на Y». Сейчас диктую: «перепиши этот endpoint так, чтобы он возвращал cursor-based пагинацию вместо offset, потому что у нас в проекте уже три места с cursor-based и мне нужна консистентность, при этом сохрани совместимость с существующими route handlers в routes.ts». LLM с таким контекстом отвечает в 2–3 раза точнее с первой попытки. Это Context completeness, про которую пишут все vibe-coding-евангелисты, и она недостижима когда лень печатать.

Cursor 3.3 (7 мая 2026) добавил /multitask — теперь можно запускать несколько subagent'ов параллельно одним промптом. Это означает что промпт-формулировка становится длиннее (несколько задач + контекст разделения), и voice-prompting здесь окупается в первую очередь — печатать такой промпт текстом превращается в работу.
Четыре рабочих способа диктовать в Cursor и Claude Code на русском
Тестировал каждый из четырёх на одном и том же контрольном промпте 287 слов с 12 английскими терминами (React, useState, endpoint, cursor-based pagination, rate limiting, routes.ts, Pull Request, vitest, OAuth, JWT, Supabase, Whisper). Контекст — типичная задача рефакторинга API в Next.js-проекте. Результаты по точности — в FAQ ниже, здесь — общие выводы по каждому.
1. Win+H (Windows 11)
Встроено в Windows 11, активация по Win+H. Бесплатно, никаких установок. Использует Microsoft Cortana Speech engine. На чистой русской речи точность 60–75% — для короткой заметки в Notepad подходит, для промпта в Cursor — нет. На моём контрольном промпте 287 слов правильно распознано 41% слов. React стал «реакт», useState — «юзстейт», endpoint — «эндпоинт». Прерывается через 5 минут паузы — для интерактивного workflow в Cursor (надиктовал → подумал → дополнил) это убивает поток.
Где применимо: короткие сообщения в Slack / Telegram на русском, простые заметки. Для регулярного vibe-coding не подходит. Подробнее про типичные проблемы Win+H — в отдельной статье «Не работает голосовой ввод: 7 причин».
2. Apple System Dictation (macOS)
Встроено в macOS, активация двойным нажатием Fn (настраивается). Бесплатно. Использует Apple Speech Recognition. Качество чуть выше Win+H — 65–80% на чистой русской. На том же контрольном промпте — 53% правильных слов. Преимущество перед Win+H — нет жёсткого таймаута, можно говорить долго. Недостаток — нет push-to-talk режима в классическом понимании, и латентность переменная (иногда 0.3 сек, иногда 2 сек на той же фразе).
Где применимо: если на Mac и не хочется ставить ничего стороннего, для коротких комментариев в коде. Для длинных промптов в Composer — приходится править каждое третье слово.
3. Wispr Flow
Лидер EN-рынка voice typing. Mac + Windows. $15/мес, оплата только валютной картой. AI-cleanup в четырёх уровнях агрессивности (с 24 апреля 2026 в стабильном релизе), нативная работа в Cursor / Claude Code / Slack / Notion / VSCode из коробки.
На моём тесте — 91% распознанных слов, без правок. Латентность 1.2–1.8 секунды от отпускания клавиши до текста. Английские термины приходят латиницей корректно — React, useState, endpoint, OAuth, JWT все правильно. AI-cleanup опционально убирает «эээ», расставляет пунктуацию, форматирует под выбранный стиль. По case study их инфраструктурного партнёра Baseten для пост-обработки они используют Llama 3.1, дообученную под real-time cleanup.
Минус для русскоязычного пользователя — оплата только валютной картой. $15/мес ≈ 1450 ₽ по курсу мая 2026. Если карта в долларах уже есть — отличный вариант, особенно если в основном работаете на Mac.
4. Диктуй
Российский voice typing на Whisper Large-v3-turbo через Groq. Windows 10/11 + macOS 11+. Free 30 минут навсегда, Pro 449 ₽/мес (150 минут), Unlimited 599 ₽/мес. Оплата картами МИР / Visa / Mastercard / СБП через ЮKassa. Юридическое лицо — ИП на УСН с фискальным чеком ОФД на каждый платёж (если нужен чек для бухгалтерии или самозанятого — он есть).
На том же тесте — 92% распознанных слов. Латентность 1.5–2.5 секунды от отпускания клавиши до текста. Английские термины — все 12 распознаны корректно. Mixed RU+EN держится примерно так же, как у Wispr (используется похожая Whisper-семейство модель).
Дополнительно поверх диктовки — три фичи:
- Режим трансформации: выделили блок кода или текста в IDE, зажали отдельный хоткей, дали голосом инструкцию («перепиши на TypeScript», «добавь error handling и retry на три попытки», «переведи комментарии на английский», «оформи как unit-тест на vitest») — LLM применяет инструкцию к выделенному фрагменту. Это другой подход, чем AI-cleanup у Wispr (там автоматический полный rewrite распознанного текста), здесь — ручной trigger на выделенном куске.
- Транскрибация аудио и видео: drag-and-drop файла, получаете текст. Для записанных Zoom-созвонов, voice notes, интервью, лекций — отдельный сценарий вне диктовки.
- Пользовательский словарь dev-терминов: имена внутренних сервисов, специальные термины проекта, имена коллег — добавляются, чтобы Whisper распознавал их точно. Из коробки уже включены топ-500 терминов React / TypeScript / Python / Docker / Kubernetes / SQL / OAuth.
Главные минусы Диктуй: маркетинговая узнаваемость младше Wispr (мы в проде 1.5 года против их 2.5+), нет нативной Linux-сборки (только Mac + Windows), AI-cleanup такого же уровня как у Wispr нет — наш режим трансформации это альтернативный подход (ручной trigger), не fullauto rewrite.
Сравнительная таблица — что выбрать под свой случай
| Win+H | Apple Dictation | Wispr Flow | Диктуй | |
|---|---|---|---|---|
| Платформы | Windows 11 | macOS 11+ | Windows + Mac | Windows + Mac |
| Цена в РФ | Бесплатно | Бесплатно | $15/мес (≈1450 ₽) | 449 ₽/мес Pro |
| Оплата | — | — | Валютная карта | СБП, МИР, Visa, MC |
| Точность mixed RU+EN | 40–55% | 50–60% | 90–93% | 90–93% |
| Латентность | 1–3 сек | 0.3–2 сек | 1.2–1.8 сек | 1.5–2.5 сек |
| Юр. лицо в оферте | Microsoft | Apple | Wispr AI Inc | ИП на УСН |
| Чек ОФД | — | — | Нет (нерезидент) | Да |
| Multi-device | — | — | Без жёсткого лимита | Без жёсткого лимита |
| Режим трансформации | Нет | Нет | AI Cleanup | Да |
| Транскрибация файлов | Нет | Нет | Нет | Да |
Точности — мои замеры на контрольном промпте 287 слов с 12 английскими терминами, май 2026. Замеры воспроизводимы — поставьте бесплатный free-уровень любого из двух внешних решений и прогоните свою фразу.
Workflow пример: реальный промпт для Cursor Composer
Чтобы было предметно — вот пример workflow, который я делаю в Cursor 3.3 ежедневно через голос. Контекст: у меня в проекте routes.ts со старыми API-endpoint'ами на offset-pagination, и я хочу перевести один из них на cursor-based pagination с rate limiting.
Печатный workflow (без голоса) занимает у меня 5–7 минут — формулирую промпт, переключаю раскладку, печатаю, исправляю опечатки в терминах. С голосом — 90 секунд:
«Composer, открой файл
routes.ts, найди endpointgetUsers, который сейчас возвращает массив пользователей по offset-pagination. Перепиши его так, чтобы он возвращал cursor-based pagination — передавай курсор последнего ID в response, принимай?cursor=ID&limit=Nв query string. Сохрани совместимость со старым форматом ответа через query-параметр?legacy=true. Добавь rate limiting: сто запросов в минуту на пользователя, через middleware, чтобы не дублировать код. Используйlru-cacheдля счётчика, который у нас уже подключён вpackage.json. Тесты для этого endpoint напиши на vitest, в файлеroutes.test.tsрядом, покрой кейсы: первая страница, средняя страница, последняя страница, rate limit hit, legacy режим.»
287 слов. Я их продиктовал за 76 секунд (одна пауза на formulation). Cursor 3.3 в /multitask режиме запустил два subagent'а параллельно — один на изменение routes.ts, второй на тесты. Через 2 минуты я смотрю diff и решаю смержить или поправить. С печатной формулировкой я бы первым делом упустил половину контекста (про lru-cache, про legacy=true, про конкретные кейсы тестов), и Cursor выдал бы более общий результат — пришлось бы догонять промптами.
Это и main ROI voice-prompting для vibe coding: не «быстрее напечатать», а «полнее объяснить с первой попытки». Любое из двух внешних решений (Wispr, Диктуй) на этом workflow работает. Системные Win+H и Apple Dictation — нет: точность падает до уровня где Cursor получает неправильный синтаксис файлов и неправильные имена terms.
Что в итоге выбрать под свой случай
Только macOS, есть валютная карта в долларах, нужен топ-AI-cleanup: Wispr Flow.
Windows или Windows + Mac, рублёвая карта: из платных — Диктуй (Wispr тоже работает на Windows, но валютная карта). Альтернативно — Handy open-source, если готовы поставить локальный Whisper и не нужен AI-rewrite поверх.
Нужен фискальный чек ОФД для самозанятого / агентства / расходов по работе: Диктуй (ИП на УСН с электронным чеком на каждый платёж). У Wispr — американский нерезидент, фискального чека по 54-ФЗ нет.
Не нужно голосовать совсем, нужны короткие заметки: Win+H или Apple Dictation. Бесплатно, встроено, точности 60–75% хватит. Для регулярного vibe coding — не подходит ни одно из системных.
Где это всё может развалиться
Несколько вещей, на которые имеет смысл обратить внимание заранее, независимо от выбранного инструмента:
- TSPU / DNS-блокировки. К маю 2026 TSPU начал DNS-hijacking API некоторых SaaS, включая прокси-домены для зарубежной инфраструктуры. Если облачное распознавание идёт через зарубежный API напрямую — может перестать работать без VPN из РФ. Российские сервисы часто проксируют через свой домен, что снижает риск. Перед выбором — проверьте, как работает у вас в регионе.
- Микрофон. Voice typing на хорошей точности требует приличного микрофона. Встроенный MacBook M-серии — нормально. Встроенный в дешёвый Windows-ноут — может давать +3–5% WER от шумов. Внешний USB-микрофон за 3–5 тысяч рублей (Fifine, Blue Snowball) — ощутимый плюс к точности всех решений.
- Accessibility-разрешения. macOS требует выдать accessibility-разрешение клиенту voice typing, чтобы он мог вставлять текст в активное окно. После каждого крупного обновления macOS разрешение иногда сбрасывается — если voice typing вдруг перестал работать, первым делом смотрите System Settings → Privacy & Security → Accessibility.
- Не диктовать конфиденциальные данные. Все облачные решения (Wispr, Диктуй) отправляют аудио на свой сервер. Если вы диктуете API-ключи, пароли, секреты клиента — это уход в облако, даже при заявленном «no audio retention». Для секретов используйте печать или локальные решения (Handy, SuperWhisper).
FAQ — короткие ответы на частые вопросы
Развёрнутые ответы — в FAQ-блоке статьи (раскрывается ниже). Здесь — самое сжатое:
- Какая модель распознаёт mixed RU+EN лучше всего? Whisper Large-v3-turbo (5–6% WER на чистой речи, 8–10% на mixed). У Win+H и Apple Dictation — 15–22%.
- Нужна ли отдельная интеграция для Cursor / Claude Code? Нет, voice typing работает на уровне системного hotkey, IDE видит обычный ввод.
- Стоит ли $15/мес за Wispr Flow? Если есть валютная карта и работаете на Mac — да, AI-cleanup даёт реальный плюс. Если нет — российский сервис с рублёвой оплатой.
- Что выбрать на Windows? Из платных с рублёвой оплатой — Диктуй. Win+H бесплатен, но не годится для длинных промптов из-за точности.
Что попробовать сейчас
Если у вас Cursor или Claude Code уже стоит, и вы готовы потратить 15 минут на тест:
- Поставьте Win+H или Apple Dictation (если ещё нет) и продиктуйте контрольный промпт на 200 слов с 5–8 английскими терминами. Зафиксируйте точность и сколько ушло на правки. Это ваша baseline.
- Поставьте одно из внешних решений (Wispr Flow или Диктуй — у обоих есть free-уровень) и продиктуйте тот же промпт. Сравните точность и время.
- Решайте по разнице. Если внешнее решение дало 90% точности vs 50% у системного — за 90 секунд диктовки вы экономите 4–5 минут правок, и любая платная подписка окупается за неделю активной работы.
У Диктуй Free-уровень — 30 минут диктовки в месяц навсегда, без карты, на Whisper Large-v3-turbo. Этого хватит на полноценный тест workflow в Cursor / Claude Code в течение пары дней. Если за это время не зайдёт под ваш workflow — нет смысла платить.
Михаил Воинский — основатель Диктуй. Свой workflow voice-prompting в Cursor / Claude Code / VS Code — особенно если вы на Windows, где экосистема внешних voice typing инструментов узкая — пишите на support@diktuy.ru или в @diktuy_help. Замеры точности на ваших промптах с английскими терминами тоже интересны для следующих обновлений этой статьи.
Часто задаваемые вопросы
- Какая модель распознавания лучше всего работает на mixed русско-английской речи разработчика?
- По повторным замерам в апреле–мае 2026 на наборе из 50 фраз с английскими терминами внутри русского предложения, лучший WER даёт Whisper Large-v3-turbo (через Groq API) — 5–6% на чистой речи, 8–10% на mixed. У базового Whisper Large-v3 — 7–9% на чистой. У NVIDIA Parakeet V3 — близко к Large, иногда лучше на длинных фразах. У встроенной Microsoft Cortana Speech в Win+H — 15–22% даже на чистой русской, на mixed разваливается. У Apple System Dictation — 12–18% на русской, на mixed примерно так же. Wispr Flow публично не раскрывает свою ASR-модель — по case study их инфраструктурного партнёра Baseten они используют proprietary pipeline с Llama 3.1 для пост-обработки.
- Можно ли диктовать прямо в Cursor Composer или это требует отдельной интеграции?
- Никакой специальной интеграции не нужно. Cursor Composer (Ctrl+I), Cursor chat (Ctrl+L), Claude Code terminal, VS Code comments, JetBrains AI Chat, GitHub Copilot Chat, Codex CLI — это все обычные текстовые поля. Voice typing любым из четырёх разобранных решений работает на уровне системного hotkey: вы нажимаете клавишу, клиент пишет распознанный текст в активное окно через эмуляцию клавиатуры. Cursor видит обычный ввод и обрабатывает его так же, как если бы вы напечатали.
- Wispr Flow стоит $15/мес — реально ли он того стоит для русскоязычной диктовки?
- Wispr — лидер EN-рынка, у них AI-rewrite в четырёх уровнях агрессивности, hot-features в Cursor / Claude Code / Slack из коробки. Для русскоязычной речи качество хорошее, но не лучше чем у других Whisper-based решений (потому что ASR-модель внутри похожа — Whisper-семейство). Главный минус для русского пользователя — оплата только валютной картой ($15/мес ≈ 1450 ₽), и для рефанда / поддержки приходится переписываться с американским support. Если уже есть карта Visa/Mastercard в долларах и Mac — Wispr рабочий вариант, особенно если важен Cleanup для длинных диктовок. Если карты в долларах нет — проще сразу российский сервис.
- Что выбрать, если работаю с Windows-ноутбука?
- Win+H бесплатно и встроено, но точность на mixed RU+EN — 60–75%, прерывается через 5 минут паузы. Для длинных vibe-coding-сессий в Cursor на Windows эта точность убивает workflow — приходится править каждую вторую фразу. Wispr Flow есть Windows-сборка, но та же проблема с валютной картой. Из внешних решений с рублёвой оплатой на Windows работает Диктуй и [SpeakFlow](https://speakflow.ru). Если нужна точная диктовка на Windows — это либо валютная карта плюс Wispr, либо российский сервис на Whisper Large-v3.
- Можно ли использовать один аккаунт на двух машинах — рабочий MacBook и домашний Windows-ПК?
- Зависит от сервиса. Wispr Flow и SuperWhisper жёстких ограничений по device-count не прописывают (но Wispr — macOS+Windows, SuperWhisper — только macOS). Диктуй разрешает один аккаунт на нескольких устройствах одновременно — Windows + Mac (Linux в roadmap) — без блокировки. Лимит минут считается общий, не на устройство. Часть узких mac-only сервисов в публичной оферте прописывают «один аккаунт = одно устройство, при подключении нового старое отключается» — для двух машин нужны два аккаунта или постоянная переавторизация. Перед покупкой имеет смысл проверять Terms.
- Голосом реально получается быстрее, чем печатать?
- Прирост реалистичный — 2–4×, не маркетинговые 10×. Печатная скорость нормального разработчика — 40–60 слов в минуту. Голосовая на родном языке — 130–180. На mixed RU+EN с переключением раскладки печать падает до 25–35 — голос держит свои 130–180 (mixed не требует никакого переключения). На промптах для Cursor Composer длиной 200–400 слов это разница между «надиктовал за 90 секунд» и «напечатал за 5 минут». На коротких командах в терминал (5–10 слов) разница не критична, иногда быстрее напечатать. Real ROI — на длинных промптах в AI-агенты, длинных комментариях, code review и Pull Request описаниях.
- Аудио уходит в облако — есть ли локальные варианты?
- Да. [Handy](/blog/handy-open-source-golosovoi-vvod-2026) — open-source, MIT, 21.5 тысячи звёзд на GitHub, использует локальный Whisper Small/Medium/Turbo/Large или NVIDIA Parakeet V3. На Mac Apple Silicon — работает шустро, на старом железе — медленнее. SuperWhisper — коммерческий локальный Whisper для Mac, $8.5/мес. Из платных облачных все российские (Диктуй, SpeakFlow) и зарубежные (Wispr Flow) гарантируют что аудио не сохраняется после распознавания, но это слово оферты, не локальная гарантия. Для секретных данных (API-ключи, пароли клиента) используйте локальный Whisper, не облачный сервис.
Попробуйте Диктуй бесплатно
30 минут навсегда. Без карты, без trial. Если не зайдёт за первые 10 промптов — нет смысла платить.
Скачать для Windows и macOS