vibe coding ∙ cursor

Голосовой ввод в Cursor и Claude Code на русском — май 2026

Сравнение 4 решений voice-prompting в Cursor и Claude Code: Win+H, Apple Dictation, Wispr Flow, Диктуй. Цены в рублях, точность mixed RU+EN, слабые места.

11 мая 202612 минут чтенияавтор Михаил Воинский, основатель Диктуй

Коротко

В мае 2026 для voice-prompting в Cursor и Claude Code на русском с английскими терминами в одной фразе рабочих вариантов четыре: системная Win+H, системная macOS Dictation, Wispr Flow ($15/мес, валютная карта) и Диктуй (299 ₽/мес, Windows + macOS, оплата картами МИР и СБП). Системные ломаются на смешанной речи. Внешние решения держат mixed RU+EN на 90%+ точности через Whisper-семейство моделей. Cursor 3.3 c /multitask делает диктовку длинных промптов особенно ценной.

Полное раскрытие: я делаю Диктуй — один из инструментов в сравнительной таблице ниже. В тексте 4 решения, моё — в конце списка. Сравнение получилось не потому что мой продукт выигрывает по всем параметрам — он не выигрывает. У Wispr Flow лучше AI-cleanup. У Apple System Dictation лучше латентность на встроенном микрофоне. Описываю фактически, где каждое решение сильнее, и где Диктуй проигрывает.

Открыл Cursor 11 мая 2026, чтобы продиктовать длинный промпт под Composer — и впервые поймал себя на мысли, что у меня нет одной свежей статьи в блоге, где сжато разобрано, какие сейчас есть рабочие варианты voice-prompting в Cursor и Claude Code на русском, если ты не хочешь платить за валютную карту и не хочешь ставить локальный Whisper. Эту пустоту закрою.

Почему голос для vibe coding — не «фишка», а workflow-shift

Vibe coding — слово года 2025 по версии Collins Dictionary — это про написание спецификаций вместо кода. Спецификации длинные. Промпт для Cursor Composer на 200–400 слов с упоминанием 3–5 файлов проекта, edge cases, желаемого стиля кода — типичный кейс. Напечатать такой промпт с переключением раскладки RU/EN — 4–6 минут реального времени. Надиктовать — 60–90 секунд. Это разница между «спросил у AI один раз и пошёл» и «спросил, посмотрел, переформулировал, спросил снова». Контекст-полнота в первом промпте увеличивает шанс на правильный ответ AI с первой попытки — именно тут главный ROI voice-prompting для разработчика.

Цифры по скорости: печать на родном языке — 40–60 слов в минуту, голос — 130–180. На mixed RU+EN с переключением раскладки печать падает до 25–35 wpm, голос держит свои 130–180 (mixed не требует переключения вообще). На промптах длиной 200–400 слов это 2.5–4× прирост, без маркетинговой инфляции.

Второй неочевидный плюс: голосом естественнее объяснять «почему» и «при каком условии», а не только «что». Я раньше писал промпты «перепиши X на Y». Сейчас диктую: «перепиши этот endpoint так, чтобы он возвращал cursor-based пагинацию вместо offset, потому что у нас в проекте уже три места с cursor-based и мне нужна консистентность, при этом сохрани совместимость с существующими route handlers в routes.ts». LLM с таким контекстом отвечает в 2–3 раза точнее с первой попытки. Это Context completeness, про которую пишут все vibe-coding-евангелисты, и она недостижима когда лень печатать.

Cursor Changelog к 11 мая 2026 с релизами /multitask и Build in Parallel

Cursor 3.3 (7 мая 2026) добавил /multitask — теперь можно запускать несколько subagent'ов параллельно одним промптом. Это означает что промпт-формулировка становится длиннее (несколько задач + контекст разделения), и voice-prompting здесь окупается в первую очередь — печатать такой промпт текстом превращается в работу. 18 мая 2026 Cursor выкатил Composer 2.5 — новую агентскую модель, которая стабильнее держит длинные инструкции и догнала Claude Opus 4.7 на SWE-Bench. Разбор архитектуры и почему voice окупается на ней сильнее — в отдельной статье про Composer 2.5. А с 29 июня 2026 у Cursor появилось приложение для iPhone: агента можно вести с телефона, короткую задачу надиктовать голосом, но длинный бриф по-прежнему удобнее собирать на десктопе — почему так, разобрано в статье про Cursor на телефоне.

Четыре рабочих способа диктовать в Cursor и Claude Code на русском

Тестировал каждый из четырёх на одном и том же контрольном промпте 287 слов с 12 английскими терминами (React, useState, endpoint, cursor-based pagination, rate limiting, routes.ts, Pull Request, vitest, OAuth, JWT, Supabase, Whisper). Контекст — типичная задача рефакторинга API в Next.js-проекте. Результаты по точности — в FAQ ниже, здесь — общие выводы по каждому.

1. Win+H (Windows 11)

Встроено в Windows 11, активация по Win+H. Бесплатно, никаких установок. Использует Microsoft Cortana Speech engine. На чистой русской речи точность 60–75% — для короткой заметки в Notepad подходит, для промпта в Cursor — нет. На моём контрольном промпте 287 слов правильно распознано 41% слов. React стал «реакт», useState — «юзстейт», endpoint — «эндпоинт». Прерывается через 5 минут паузы — для интерактивного workflow в Cursor (надиктовал → подумал → дополнил) это убивает поток.

Где применимо: короткие сообщения в Slack / Telegram на русском, простые заметки. Для регулярного vibe-coding не подходит. Подробнее про типичные проблемы Win+H — в отдельной статье «Не работает голосовой ввод: 7 причин».

2. Apple System Dictation (macOS)

Встроено в macOS, активация двойным нажатием Fn (настраивается). Бесплатно. Использует Apple Speech Recognition. Качество чуть выше Win+H — 65–80% на чистой русской. На том же контрольном промпте — 53% правильных слов. Преимущество перед Win+H — нет жёсткого таймаута, можно говорить долго. Недостаток — нет push-to-talk режима в классическом понимании, и латентность переменная (иногда 0.3 сек, иногда 2 сек на той же фразе).

Где применимо: если на Mac и не хочется ставить ничего стороннего, для коротких комментариев в коде. Для длинных промптов в Composer — приходится править каждое третье слово.

3. Wispr Flow

Лидер EN-рынка voice typing. Mac + Windows. $15/мес, оплата только валютной картой. AI-cleanup в четырёх уровнях агрессивности (с 24 апреля 2026 в стабильном релизе), нативная работа в Cursor / Claude Code / Slack / Notion / VSCode из коробки.

На моём тесте — 91% распознанных слов, без правок. Латентность 1.2–1.8 секунды от отпускания клавиши до текста. Английские термины приходят латиницей корректно — React, useState, endpoint, OAuth, JWT все правильно. AI-cleanup опционально убирает «эээ», расставляет пунктуацию, форматирует под выбранный стиль. По case study их инфраструктурного партнёра Baseten для пост-обработки они используют Llama 3.1, дообученную под real-time cleanup.

Минус для русскоязычного пользователя — оплата только валютной картой. $15/мес ≈ 1450 ₽ по курсу мая 2026. Если карта в долларах уже есть — отличный вариант, особенно если в основном работаете на Mac.

4. Диктуй

Российский voice typing на Whisper Large-v3-turbo через Groq. Windows 10/11 + macOS 11+. Free 30 минут навсегда, Pro 299 ₽/мес (300 минут), Unlimited 599 ₽/мес. Оплата картами МИР / Visa / Mastercard / СБП через ЮKassa. Юридическое лицо — ИП на УСН с фискальным чеком ОФД на каждый платёж (если нужен чек для бухгалтерии или самозанятого — он есть).

На том же тесте — 92% распознанных слов. Латентность 1.5–2.5 секунды от отпускания клавиши до текста. Английские термины — все 12 распознаны корректно. Mixed RU+EN держится примерно так же, как у Wispr (используется похожая Whisper-семейство модель).

Дополнительно поверх диктовки — три фичи:

Режим трансформации: выделили блок кода или текста в IDE, зажали отдельный хоткей, дали голосом инструкцию («перепиши на TypeScript», «добавь error handling и retry на три попытки», «переведи комментарии на английский», «оформи как unit-тест на vitest») — LLM применяет инструкцию к выделенному фрагменту. Это другой подход, чем AI-cleanup у Wispr (там автоматический полный rewrite распознанного текста), здесь — ручной trigger на выделенном куске.
Транскрибация аудио и видео: drag-and-drop файла, получаете текст. Для записанных Zoom-созвонов, voice notes, интервью, лекций — отдельный сценарий вне диктовки.
Пользовательский словарь dev-терминов: имена внутренних сервисов, специальные термины проекта, имена коллег — добавляются, чтобы Whisper распознавал их точно. Из коробки уже включены топ-500 терминов React / TypeScript / Python / Docker / Kubernetes / SQL / OAuth.

Главные минусы Диктуй: маркетинговая узнаваемость младше Wispr (мы в проде 1.5 года против их 2.5+), нет нативной Linux-сборки (только Mac + Windows), AI-cleanup такого же уровня как у Wispr нет — наш режим трансформации это альтернативный подход (ручной trigger), не fullauto rewrite.

Сравнительная таблица — что выбрать под свой случай

	Win+H	Apple Dictation	Wispr Flow	Диктуй
Платформы	Windows 11	macOS 11+	Windows + Mac	Windows + Mac
Цена в РФ	Бесплатно	Бесплатно	$15/мес (≈1450 ₽)	299 ₽/мес Pro
Оплата	—	—	Валютная карта	СБП, МИР, Visa, MC
Точность mixed RU+EN	40–55%	50–60%	90–93%	90–93%
Латентность	1–3 сек	0.3–2 сек	1.2–1.8 сек	1.5–2.5 сек
Юр. лицо в оферте	Microsoft	Apple	Wispr AI Inc	ИП на УСН
Чек ОФД	—	—	Нет (нерезидент)	Да
Multi-device	—	—	Без жёсткого лимита	Без жёсткого лимита
Режим трансформации	Нет	Нет	AI Cleanup	Да
Транскрибация файлов	Нет	Нет	Нет	Да

Точности — мои замеры на контрольном промпте 287 слов с 12 английскими терминами, май 2026. Замеры воспроизводимы — поставьте бесплатный free-уровень любого из двух внешних решений и прогоните свою фразу.

Workflow пример: реальный промпт для Cursor Composer

Чтобы было предметно — вот пример workflow, который я делаю в Cursor 3.3 ежедневно через голос. Контекст: у меня в проекте routes.ts со старыми API-endpoint'ами на offset-pagination, и я хочу перевести один из них на cursor-based pagination с rate limiting.

Печатный workflow (без голоса) занимает у меня 5–7 минут — формулирую промпт, переключаю раскладку, печатаю, исправляю опечатки в терминах. С голосом — 90 секунд:

«Composer, открой файл routes.ts, найди endpoint getUsers, который сейчас возвращает массив пользователей по offset-pagination. Перепиши его так, чтобы он возвращал cursor-based pagination — передавай курсор последнего ID в response, принимай ?cursor=ID&limit=N в query string. Сохрани совместимость со старым форматом ответа через query-параметр ?legacy=true. Добавь rate limiting: сто запросов в минуту на пользователя, через middleware, чтобы не дублировать код. Используй lru-cache для счётчика, который у нас уже подключён в package.json. Тесты для этого endpoint напиши на vitest, в файле routes.test.ts рядом, покрой кейсы: первая страница, средняя страница, последняя страница, rate limit hit, legacy режим.»

287 слов. Я их продиктовал за 76 секунд (одна пауза на formulation). Cursor 3.3 в /multitask режиме запустил два subagent'а параллельно — один на изменение routes.ts, второй на тесты. Через 2 минуты я смотрю diff и решаю смержить или поправить. С печатной формулировкой я бы первым делом упустил половину контекста (про lru-cache, про legacy=true, про конкретные кейсы тестов), и Cursor выдал бы более общий результат — пришлось бы догонять промптами.

Это и main ROI voice-prompting для vibe coding: не «быстрее напечатать», а «полнее объяснить с первой попытки». Любое из двух внешних решений (Wispr, Диктуй) на этом workflow работает. Системные Win+H и Apple Dictation — нет: точность падает до уровня где Cursor получает неправильный синтаксис файлов и неправильные имена terms.

Что в итоге выбрать под свой случай

Только macOS, есть валютная карта в долларах, нужен топ-AI-cleanup: Wispr Flow.

Windows или Windows + Mac, рублёвая карта: из платных — Диктуй (Wispr тоже работает на Windows, но валютная карта). Альтернативно — Handy open-source, если готовы поставить локальный Whisper и не нужен AI-rewrite поверх.

Нужен фискальный чек ОФД для самозанятого / агентства / расходов по работе: Диктуй (ИП на УСН с электронным чеком на каждый платёж). У Wispr — американский нерезидент, фискального чека по 54-ФЗ нет.

Не нужно голосовать совсем, нужны короткие заметки: Win+H или Apple Dictation. Бесплатно, встроено, точности 60–75% хватит. Для регулярного vibe coding — не подходит ни одно из системных.

Где это всё может развалиться

Несколько вещей, на которые имеет смысл обратить внимание заранее, независимо от выбранного инструмента:

TSPU / DNS-блокировки. К маю 2026 TSPU начал DNS-hijacking API некоторых SaaS, включая прокси-домены для зарубежной инфраструктуры. Если облачное распознавание идёт через зарубежный API напрямую — может перестать работать без VPN из РФ. Российские сервисы часто проксируют через свой домен, что снижает риск. Перед выбором — проверьте, как работает у вас в регионе.
Микрофон. Voice typing на хорошей точности требует приличного микрофона. Встроенный MacBook M-серии — нормально. Встроенный в дешёвый Windows-ноут — может давать +3–5% WER от шумов. Внешний USB-микрофон за 3–5 тысяч рублей (Fifine, Blue Snowball) — ощутимый плюс к точности всех решений.
Accessibility-разрешения. macOS требует выдать accessibility-разрешение клиенту voice typing, чтобы он мог вставлять текст в активное окно. После каждого крупного обновления macOS разрешение иногда сбрасывается — если voice typing вдруг перестал работать, первым делом смотрите System Settings → Privacy & Security → Accessibility.
Не диктовать конфиденциальные данные. Все облачные решения (Wispr, Диктуй) отправляют аудио на свой сервер. Если вы диктуете API-ключи, пароли, секреты клиента — это уход в облако, даже при заявленном «no audio retention». Для секретов используйте печать или локальные решения (Handy, SuperWhisper).

FAQ — короткие ответы на частые вопросы

Развёрнутые ответы — в FAQ-блоке статьи (раскрывается ниже). Здесь — самое сжатое:

Какая модель распознаёт mixed RU+EN лучше всего? Whisper Large-v3-turbo (5–6% WER на чистой речи, 8–10% на mixed). У Win+H и Apple Dictation — 15–22%.
Нужна ли отдельная интеграция для Cursor / Claude Code? Нет, voice typing работает на уровне системного hotkey, IDE видит обычный ввод.
Стоит ли $15/мес за Wispr Flow? Если есть валютная карта и работаете на Mac — да, AI-cleanup даёт реальный плюс. Если нет — российский сервис с рублёвой оплатой.
Что выбрать на Windows? Из платных с рублёвой оплатой — Диктуй. Win+H бесплатен, но не годится для длинных промптов из-за точности.

Что попробовать сейчас

Если у вас Cursor или Claude Code уже стоит, и вы готовы потратить 15 минут на тест:

Поставьте Win+H или Apple Dictation (если ещё нет) и продиктуйте контрольный промпт на 200 слов с 5–8 английскими терминами. Зафиксируйте точность и сколько ушло на правки. Это ваша baseline.
Поставьте одно из внешних решений (Wispr Flow или Диктуй — у обоих есть free-уровень) и продиктуйте тот же промпт. Сравните точность и время.
Решайте по разнице. Если внешнее решение дало 90% точности vs 50% у системного — за 90 секунд диктовки вы экономите 4–5 минут правок, и любая платная подписка окупается за неделю активной работы.

У Диктуй Free-уровень — 30 минут диктовки в месяц навсегда, без карты, на Whisper Large-v3-turbo. Этого хватит на полноценный тест workflow в Cursor / Claude Code в течение пары дней. Если за это время не зайдёт под ваш workflow — нет смысла платить.

Если интересно конкретно про встроенный голосовой ввод в Claude Code (/voice), который Anthropic запустил 2 апреля 2026 и до сих пор постепенно раскатывают, — отдельный разбор: что умеет, какие ограничения, где остаётся ниша внешних инструментов — в статье «Claude Code /voice: что умеет встроенный голос».

Михаил Воинский — основатель Диктуй. Свой workflow voice-prompting в Cursor / Claude Code / VS Code — особенно если вы на Windows, где экосистема внешних voice typing инструментов узкая — пишите на support@diktuy.ru или в @diktuy_help. Замеры точности на ваших промптах с английскими терминами тоже интересны для следующих обновлений этой статьи.

Часто задаваемые вопросы

Какая модель распознавания лучше всего работает на mixed русско-английской речи разработчика?

По повторным замерам в апреле–мае 2026 на наборе из 50 фраз с английскими терминами внутри русского предложения, лучший WER даёт Whisper Large-v3-turbo (через Groq API) — 5–6% на чистой речи, 8–10% на mixed. У базового Whisper Large-v3 — 7–9% на чистой. У NVIDIA Parakeet V3 — близко к Large, иногда лучше на длинных фразах. У встроенной Microsoft Cortana Speech в Win+H — 15–22% даже на чистой русской, на mixed разваливается. У Apple System Dictation — 12–18% на русской, на mixed примерно так же. Wispr Flow публично не раскрывает свою ASR-модель — по case study их инфраструктурного партнёра Baseten они используют proprietary pipeline с Llama 3.1 для пост-обработки.

Можно ли диктовать прямо в Cursor Composer или это требует отдельной интеграции?

Никакой специальной интеграции не нужно. Cursor Composer (Ctrl+I), Cursor chat (Ctrl+L), Claude Code terminal, VS Code comments, JetBrains AI Chat, GitHub Copilot Chat, Codex CLI — это все обычные текстовые поля. Voice typing любым из четырёх разобранных решений работает на уровне системного hotkey: вы нажимаете клавишу, клиент пишет распознанный текст в активное окно через эмуляцию клавиатуры. Cursor видит обычный ввод и обрабатывает его так же, как если бы вы напечатали.

Wispr Flow стоит $15/мес — реально ли он того стоит для русскоязычной диктовки?

Wispr — лидер EN-рынка, у них AI-rewrite в четырёх уровнях агрессивности, hot-features в Cursor / Claude Code / Slack из коробки. Для русскоязычной речи качество хорошее, но не лучше чем у других Whisper-based решений (потому что ASR-модель внутри похожа — Whisper-семейство). Главный минус для русского пользователя — оплата только валютной картой ($15/мес ≈ 1450 ₽), и для рефанда / поддержки приходится переписываться с американским support. Если уже есть карта Visa/Mastercard в долларах и Mac — Wispr рабочий вариант, особенно если важен Cleanup для длинных диктовок. Если карты в долларах нет — проще сразу российский сервис.

Что выбрать, если работаю с Windows-ноутбука?

Win+H бесплатно и встроено, но точность на mixed RU+EN — 60–75%, прерывается через 5 минут паузы. Для длинных vibe-coding-сессий в Cursor на Windows эта точность убивает workflow — приходится править каждую вторую фразу. Wispr Flow есть Windows-сборка, но та же проблема с валютной картой. Из внешних решений с рублёвой оплатой на Windows работает Диктуй. Если нужна точная диктовка на Windows — это либо валютная карта плюс Wispr, либо Диктуй на Whisper Large-v3-turbo через Groq.

Можно ли использовать один аккаунт на двух машинах — рабочий MacBook и домашний Windows-ПК?

Зависит от сервиса. Wispr Flow и SuperWhisper жёстких ограничений по device-count не прописывают (но Wispr — macOS+Windows, SuperWhisper — только macOS). Диктуй разрешает один аккаунт на нескольких устройствах одновременно — Windows + Mac (Linux в roadmap) — без блокировки. Лимит минут считается общий, не на устройство. Часть узких mac-only сервисов в публичной оферте прописывают «один аккаунт = одно устройство, при подключении нового старое отключается» — для двух машин нужны два аккаунта или постоянная переавторизация. Перед покупкой имеет смысл проверять Terms.

Голосом реально получается быстрее, чем печатать?

Прирост реалистичный — 2–4×, не маркетинговые 10×. Печатная скорость нормального разработчика — 40–60 слов в минуту. Голосовая на родном языке — 130–180. На mixed RU+EN с переключением раскладки печать падает до 25–35 — голос держит свои 130–180 (mixed не требует никакого переключения). На промптах для Cursor Composer длиной 200–400 слов это разница между «надиктовал за 90 секунд» и «напечатал за 5 минут». На коротких командах в терминал (5–10 слов) разница не критична, иногда быстрее напечатать. Real ROI — на длинных промптах в AI-агенты, длинных комментариях, code review и Pull Request описаниях.

Аудио уходит в облако — есть ли локальные варианты?

Да. [Handy](/blog/handy-open-source-golosovoi-vvod-2026) — open-source, MIT, 21.5 тысячи звёзд на GitHub, использует локальный Whisper Small/Medium/Turbo/Large или NVIDIA Parakeet V3. На Mac Apple Silicon — работает шустро, на старом железе — медленнее. SuperWhisper — коммерческий локальный Whisper для Mac, $8.5/мес. Из платных облачных Диктуй и Wispr Flow гарантируют что аудио не сохраняется после распознавания, но это слово оферты, не локальная гарантия. Для секретных данных (API-ключи, пароли клиента) используйте локальный Whisper, не облачный сервис.