Диктуй
12 мин чтенияМихаил Воинский, основатель Диктуй

Claude Code /voice: что умеет встроенный голос в мае 2026

Anthropic встроил /voice в Claude Code 2 апреля 2026. Что умеет, как включить, 20 языков включая русский, где остаётся ниша внешних voice-tools.

Коротко

Anthropic встроил /voice в Claude Code 2 апреля 2026, rollout продолжается на Pro/Max/Team/Enterprise (Free не включён). 20 языков включая русский, два режима — hold-to-talk и tap. Аудио уходит на серверы Anthropic, не считается в /usage. Работает только в Claude Code CLI и VS Code расширении, требует auth через claude.ai (не API/Bedrock/Vertex/Foundry). Внешние voice-tools нужны для cross-IDE workflow, режима трансформации и работы через API напрямую.

Контекст обо мне: я делаю Диктуй — voice typing для разработчиков. Когда Anthropic в начале апреля встроил /voice прямо в Claude Code CLI, у меня появился прямой вопрос — не делает ли это половину внешних voice-tools (включая мой) лишними. Чтобы ответить не из головы, я попросил доступ через Pro-подписку, дождался когда rollout до меня доехал, и провёл четыре дня в режиме «диктую в Claude Code только встроенным /voice, без подключения внешнего тула». Этот текст — что нашёл.

Rollout /voice начался в начале марта 2026 — инженер Anthropic Thariq Shihipar упоминал ~5% доступа в первых публикациях TechCrunch от 3 марта. А 2 апреля 2026 фича получила публичный launch на Product Hunt (hunter Rohan Chaubey, 413 upvotes).

Освещение запуска /voice в TechCrunch (3 марта 2026) с заголовком Claude Code rolls out a voice mode capability На момент написания статьи (вторая половина мая) rollout всё ещё расширяется волнами — не все подписчики получили доступ одновременно. По данным Anthropic, фича доступна на тарифах Pro, Max, Team и Enterprise; на Free её нет. И что важно для русского пользователя — русский язык в официальном списке из 20 поддерживаемых есть, хотя независимых WER-замеров пока публично не опубликовано.

/voice — это встроенная push-to-talk диктовка в Claude Code CLI и VS Code расширении, запущенная Anthropic 2 апреля 2026. Поддерживает 20 языков включая русский, работает только при auth через claude.ai (не через прямой Anthropic API, AWS Bedrock, Google Vertex AI или Microsoft Foundry). Транскрибирование не считается в /usage лимит и не потребляет токены Claude.

Что именно умеет /voice

Под капотом это push-to-talk диктовка с двумя режимами и переключаемым языком, привязанная к учётной записи claude.ai (не к API ключу). Ключевые технические свойства из официальной документации:

  • Hold-режим (по умолчанию): зажали Space, говорите, отпустили — текст вставляется в input. Перед активацией записи короткий warm-up период (Claude Code обнаруживает удержание клавиши через частоту key-repeat событий), за который первые 1-2 символа Space печатаются в input и потом удаляются автоматически.
  • Tap-режим (с v2.1.116): нажали Space один раз — пошла запись, нажали второй раз — текст вставляется и автоматически отправляется (от трёх слов). Без warm-up.
  • Auto-stop: запись автоматически останавливается после 15 секунд молчания или 2 минут общего времени.
  • Coding-dictionary встроен: термины разработки (regex, OAuth, JSON, localhost) распознаются правильно. Имя текущего проекта и git branch автоматически добавляются как подсказки распознавания.
  • Смешивание с печатью в одной сессии: транскрибированный текст вставляется в позицию курсора, курсор остаётся в конце. Можно надиктовать часть, переместить курсор, напечатать другую часть, снова надиктовать.
  • AutoSubmit опция: в ~/.claude/settings.json можно включить "voice": {"autoSubmit": true} — при отпускании клавиши промпт отправляется автоматически, если транскрибированных слов больше трёх.
  • Хоткей перенастраивается: в ~/.claude/keybindings.json действие voice:pushToTalk можно переназначить с Space на сочетание модификаторов (например meta+k) — это убирает warm-up.

Включение — /voice в активной сессии, при первом запуске запросит разрешение микрофона у системы. Выбор языка — через /config language ru (поле language управляет и языком ответов Claude, и языком диктовки одновременно — если не задано, диктовка по умолчанию использует английский).

VS Code расширение Claude Code (@anthropic-ai/claude-code в Marketplace) также поддерживает /voice с теми же требованиями. Но в VS Code Remote, Dev Containers и Codespaces — не работает: микрофон на локальной машине, а расширение запускается на удалённом хосте.

Чего /voice не умеет (и почему это критично)

Самое важное ограничение названо в документации одной фразой: «Voice input sends your recorded speech to Anthropic's servers for transcription. Audio is not processed locally.» Аудио уходит в облако. Транскрибирование не считается в /usage лимит и не потребляет токены, но для конфиденциальных проектов (NDA-кода, медицинских данных, юридических документов) это означает один и тот же compliance-разговор, что и с любым облачным сервисом распознавания: формальная гарантия «не сохраняем» против реальной гарантии «не покидает мой ноутбук». Для последней нужен локальный Whisper (Handy, SuperWhisper).

Остальные ограничения:

  • Только Claude Code CLI и VS Code расширение. В Cursor, JetBrains AI Chat (без Claude Code), GitHub Copilot Chat, чате ChatGPT, Slack, Telegram, Notion — /voice не работает.
  • Только при auth через claude.ai. Если Claude Code сконфигурирован на прямой Anthropic API ключ, Amazon Bedrock, Google Vertex AI или Microsoft Foundry — /voice выключен. Это критично для команд, которые билингуются через AWS/GCP/Azure marketplace.
  • Не работает в Claude Code в браузере (claude.com/code) — удалённое окружение без локального микрофона.
  • Не работает в SSH-сессиях, VS Code Remote, Dev Containers, Codespaces — микрофон на вашей машине, Claude Code на удалённом хосте.
  • На Linux/WSL — требует WSLg + SoX с PulseAudio. WSL1 не поддерживается. На WSL2 без правильного бэкенда Voice mode could not find a working audio recorder in WSL. Лечение: sudo apt install sox libsox-fmt-pulse (только sox без libsox-fmt-pulse подтянет ALSA-бэкенд, который не пишет в WSL).
  • Без режима трансформации. Голосом нельзя сказать «перепиши выделенный блок кода на TypeScript / добавь error handling / переведи комментарии». /voice только надиктовывает новый текст в input, не модифицирует существующий код в редакторе.

Скриншот официальной русскоязычной документации Anthropic по голосовому вводу в Claude Code — code.claude.com/docs/ru/voice-dictation

Что делать, если /voice не работает

Самые частые причины и быстрые фиксы — по моим четырём дням и публичным обсуждениям в r/ClaudeAI:

  • Voice mode requires a Claude.ai account — вы залогинены через прямой API key или сторонний провайдер (Bedrock/Vertex/Foundry). Запустите /login и войдите через учётную запись claude.ai. На корпоративном ключе через AWS — /voice работать не будет, ограничение архитектурное.
  • Microphone access is denied — терминалу не выдано разрешение микрофона. На macOS: System Settings → Privacy & Security → Microphone, включить ваш терминал (Terminal.app, iTerm2, WezTerm), затем /voice снова. Если терминала нет в списке — tccutil reset Microphone com.apple.Terminal (или com.googlecode.iterm2 для iTerm), потом Cmd+Q перезапуск терминала и /voice — система запросит разрешение свежим диалогом.
  • No audio recording tool found на Linux — нативный модуль не загрузился, fallback на SoX не установлен. Поставить SoX: sudo apt-get install sox (или dnf install sox для Fedora).
  • Voice mode could not find a working audio recorder in WSL — WSL2 без правильного аудио-бэкенда. Лечение: sudo apt install sox libsox-fmt-pulse. Без libsox-fmt-pulse подтянется только ALSA-бэкенд, который не пишет в WSL.
  • Ничего не происходит при удержании Space в hold-режиме — обнаружение удержания требует key-repeat событий от терминала. Если key-repeat отключён на уровне ОС — /voice hold не сработает. Переключиться на /voice tap (там warm-up не нужен).
  • Нажатие Space печатает пробел вместо записи в tap-режиме — первое нажатие начинает запись только при пустом input. Очистить input и попробовать снова, или проверить что вы в tap-режиме (/voice tap).
  • No speech detected — аудио дошло до сервиса, но слова не распознались. Проверить что выбрано правильное устройство микрофона по умолчанию (System Settings → Sound → Input), уровень не на нуле, и что language в /config соответствует языку речи (по умолчанию English).

Если ничего из этого не помогло — /voice логи можно посмотреть через debug-флаг при запуске Claude Code, плюс официальный troubleshooting раздел дополнительно покрывает edge cases с Caps Lock и зарезервированными сочетаниями.

Где остаётся ниша внешних voice-tools

После четырёх дней в режиме «только встроенный /voice» нашёл три случая, где внешний инструмент остаётся объективно нужен:

1. Cross-IDE workflow. За день у разработчика обычно открыты несколько окон: Cursor для основного кодинга, Claude Code CLI для рутинных задач, JetBrains для legacy-проекта, Slack для команды, браузерные формы Linear/GitHub/ChatGPT. Встроенный /voice диктует только в Claude Code. Во всех остальных окнах нужен системный voice typing через эмуляцию клавиатуры. У меня типичный день — 60% Cursor, 25% Claude Code, 10% Linear / Slack / GitHub в браузере, 5% iTerm. С одним только /voice голос работает лишь четверть рабочего времени. Системный voice typing (Wispr Flow, Диктуй) пишет в любое окно с курсором — голос работает все 100%.

2. Режим трансформации существующего кода. Эту фичу проще показать примером. У меня есть готовый блок кода в Cursor, нужно перевести на TypeScript и добавить error handling. С /voice я могу только надиктовать новый промпт «открой файл X, найди функцию Y, перепиши на TypeScript, добавь try/catch с retry». С внешним voice-tool, у которого есть отдельный rewrite-режим, — я выделяю существующий блок в редакторе, зажимаю отдельный хоткей и говорю «перепиши на TypeScript с error handling». LLM применяет инструкцию к выделенному фрагменту прямо в редакторе. На рефакторинге это экономит 1-2 промпта за каждую операцию. У Wispr Flow аналогичной фичи нет — их AI Cleanup делает только пост-обработку надиктованного текста (расстановка пунктуации, удаление слов-паразитов), не модифицирует выделенный блок. У Диктуй это называется Режим трансформации и работает поверх любого выделения в IDE.

3. Работа через Anthropic API напрямую. Если ваш Claude Code сконфигурирован на API ключ, Bedrock, Vertex AI или Foundry — /voice выключен. Это типично для корпоративных команд, которым важен биллинг через cloud-провайдера, и для разработчиков, которые работают через прокси или собственный gateway. Внешний voice-tool на ОС-уровне про эту конфигурацию ничего не знает и работает как обычно.

Четыре дня с /voice: что окупилось, что нет

Несколько практических наблюдений из реальной работы — не из документации, а из того, как я её использовал.

Включение и hotkey. Дефолтный Space — неудачный выбор для меня. Слишком часто в input нужен реальный пробел, особенно когда дописываешь промпт после диктовки. Через два дня переназначил на meta+k — пропал warm-up период (модификатор детектируется сразу), пропали ложные срабатывания. В документации это рекомендация для tap-режима, но и для hold работает заметно лучше.

Качество русского. На моих типичных промптах (мешанина русского с английскими терминами вроде endpoint, middleware, vitest, OAuth, useState) — близко к Whisper Large-v3, около 90% правильно распознанных слов на промпте 200-300 слов. Это нормальный production-уровень. Падает в трёх случаях: длинные числовые последовательности (UUID, IP-адреса, версии), редкие имена библиотек (lru-cache, zod), быстрая речь с проглатыванием окончаний. Те же три случая ломают и Wispr, и системную Apple Dictation — это общая граница ASR-моделей на русском, не специфика /voice.

Coding-dictionary. Реально помогает. regex, OAuth, JSON, localhost приходят правильно без необходимости их добавлять в свой словарь. Имя проекта и git branch как подсказки — заметил по cursor-based pagination в моих промптах, где cursor распознавалось без транслитерации (видимо, потому что в проекте есть файл с этим именем).

Tap vs hold. Перешёл на tap на третий день и не вернулся. На промптах 100+ слов проще нажать-сказать-нажать, чем держать клавишу. Auto-submit (от трёх слов) для one-shot промптов реально удобен — не нужно делать дополнительный Enter, диктовка сразу уходит в обработку.

Сценарий, где /voice оказался лучше внешнего инструмента. Длинные follow-up промпты внутри уже идущей Claude Code сессии. Когда модель что-то сгенерировала, я смотрю результат и говорю «перепиши вот этот блок, добавь обработку случая X, проверь Y» — без переключения окна, без выхода из контекста. Системный voice-tool требует переключиться в активное окно, нажать его хоткей, диктовать, потом вернуться. /voice уже в Claude Code — на одну операцию меньше.

Сценарий, где /voice оказался хуже внешнего. Когда нужно надиктовать промпт длиннее 500 слов с пятью-шестью разными требованиями. Auto-stop через 2 минуты прерывает, если задумался дольше. Внешний tool с push-to-talk даёт говорить столько, сколько нужно — отпустил Space только когда закончил. Длинные agentic-промпты под /multitask в Cursor у меня обычно как раз 400-600 слов, и для них внешний tool удобнее.

Как использовать вместе: voice-tool + /voice без конфликта

Очевидный вопрос — а можно ли держать оба одновременно? Можно, но нужно правильно развести hotkey'и, иначе они будут перехватывать друг друга.

У меня сейчас такая раскладка:

  • Системный voice typing (Диктуй) — на Right Option. Работает в любом окне с курсором, кроме Claude Code CLI.
  • Claude Code /voice — переназначил с Space на meta+k. Работает только внутри Claude Code.

Конфликта нет потому что хоткеи разные и Claude Code /voice обрабатывает их сам, не передавая в ОС. Внешний voice-tool слушает Right Option на уровне ОС, до того как событие доходит до приложения. Никакой race condition.

Результат — голос работает везде, где есть курсор: в Cursor, в JetBrains, в Slack, в браузерных формах, плюс отдельно в Claude Code. В Claude Code предпочтительнее использовать встроенный /voice — у него есть встроенный coding-dictionary, project name как hint, и интеграция с input через autoSubmit, чего внешний tool делать не умеет. В остальных приложениях — внешний tool, у которого есть режим трансформации существующего кода, транскрибация файлов и работа без зависимости от claude.ai auth.

Что попробовать в эту неделю, если /voice уже в rollout до вас

  1. Проверить версию Claude Codeclaude --version. Нужно v2.1.69+ для hold, v2.1.116+ для tap. Если меньше — claude upgrade.
  2. Запустить /voice в активной сессии — система запросит разрешение микрофона, согласиться. Сразу переключиться на tap-режим командой /voice tap — это удобнее для большинства сценариев.
  3. Сменить язык на русский в /config — параметр language на ru или russian. Это же поле управляет языком ответов Claude.
  4. Перенастроить хоткей в ~/.claude/keybindings.json на сочетание модификаторов (meta+k или ctrl+shift+v) — пропадёт warm-up период и ложные пробелы в input.
  5. Прогнать типичный промпт 200-300 слов на русском с английскими терминами. Сравнить точность с системным voice-tool, если уже используете один.

Если вы работаете не только в Claude Code, а в нескольких IDE и мессенджерах одновременно — стоит параллельно держать системный voice typing для остальных окон. У Диктуй Free-тариф даёт 30 минут навсегда без карты — достаточно проверить, окупается ли двойная связка под ваш workflow или хватает одного /voice.

Что дальше с /voice

Из того что наблюдаемо публично — Anthropic явно вкладывает в фичу: rollout продолжается, документация регулярно обновляется (последний раз — в мае 2026 с добавлением tap-режима и AutoSubmit). Логичные следующие шаги, которые я бы ждал в ближайшие месяцы: поддержка SSH/remote через mic forwarding, режим трансформации выделенного кода прямо из IDE-расширения, расширение языков. До тех пор внешний voice-tool остаётся нужен для нескольких объективных сценариев, описанных выше.

Связку «/voice для Claude Code + внешний tool для всего остального» — это то, что у меня выработалось за эти четыре дня и осталось как стабильный setup. Связанные разборы инструментов для русскоязычного разработчика — в статье «Голосовой ввод в Cursor и Claude Code на русском» (с воспроизводимыми замерами WER на контрольном промпте), в гайде по vibe coding на русском и в разборе Cursor Composer 2.5, где voice-prompting окупается особенно сильно из-за роста стабильности на длинных промптах.


Михаил Воинский — основатель Диктуй. Свой опыт со встроенным /voice в Claude Code — где он окупился, где пришлось вернуться на системный voice-tool, какие хоткеи увязались без конфликта — пишите на support@diktuy.ru или в @diktuy_help. Бенчмарк качества распознавания на русском у разных пользователей соберу в обновление этой статьи через 30 дней.

Часто задаваемые вопросы

Кому доступен /voice в Claude Code и есть ли он на Free?
Доступ есть у подписчиков Pro, Max, Team и Enterprise — Free-тариф не включён. Транскрибирование не потребляет сообщения Claude и не учитывается в лимит /usage. Обязательное требование — auth через учётную запись Claude.ai. Если Claude Code настроен на прямой Anthropic API ключ, Amazon Bedrock, Google Vertex AI или Microsoft Foundry — /voice работать не будет: сервис привязан к claude.ai login.
На каких языках работает встроенный голосовой ввод и насколько хорошо на русском?
Официальный список — 20 языков: чешский, датский, нидерландский, английский, французский, немецкий, греческий, хинди, индонезийский, итальянский, японский, корейский, норвежский, польский, португальский, русский, испанский, шведский, турецкий, украинский. Русский в списке — но Anthropic не раскрывает использованную ASR-модель и не публикует WER-бенчмарки по русскому отдельно. По первым публичным отчётам пользователей в r/ClaudeAI и Twitter — на чистой русской речи качество близкое к Whisper Large-v3 (около 90-93% точности на mixed RU+EN с английскими техническими терминами). Объективных независимых замеров на дату публикации не появилось.
Куда уходит мой голос — на серверы Anthropic или локально обрабатывается?
На серверы Anthropic. По официальной документации: «Voice input sends your recorded speech to Anthropic's servers for transcription. Audio is not processed locally.» Если вам нужна гарантированная локальная обработка (для конфиденциальных проектов, NDA-кода, медицинских/юридических данных) — Claude Code /voice не подходит. Локальные альтернативы — Handy (open-source, MIT) или SuperWhisper для Mac, оба используют локальный Whisper на устройстве.
Что не работает с /voice в Claude Code?
Несколько важных ограничений. Голосовой ввод не работает в Claude Code в браузере (claude.com/code) — это удалённое окружение без локального микрофона. Не работает в SSH-сессиях — микрофон находится на вашей машине, а Claude Code на удалённом хосте. То же касается VS Code Remote, Dev Containers и Codespaces — расширение Claude Code там работает на удалённом хосте, микрофон не доступен. На Linux под WSL требуется WSLg для маршрутизации аудио (WSL1 не поддерживается, на WSL2 нужен SoX с PulseAudio бэкендом — `sudo apt install sox libsox-fmt-pulse`).
Hold или tap — какой режим выбрать для длинных промптов?
Tap для длинных, hold для коротких. В hold-режиме у Claude Code есть короткий warm-up период перед активацией записи (он обнаруживает зажатую клавишу по частоте key-repeat событий), в течение которого первые 1-2 символа Space печатаются в input и потом удаляются автоматически. На промптах 200-300 слов длиной этот warm-up несущественен, но если переключаться часто — становится заметно. Tap-режим без warm-up: нажал — пошла запись, нажал второй раз — отправилось. Дополнительно tap auto-submit (от трёх слов) — полезно для one-shot промптов. Hold даёт больше контроля: можно начать запись, замолчать, ещё подумать, продолжить — всё в одной сессии записи.
Можно ли в одной сессии смешивать голос и печать?
Да. Транскрибированный текст вставляется в позицию курсора в input, и курсор остаётся в конце вставленного текста. Можно надиктовать одну часть, потом переместить курсор клавиатурой и напечатать другую, потом снова надиктовать. Это полезно для случаев когда часть промпта известна заранее (шаблон) и подставляется текстом, а контекст-специфика диктуется голосом.
Что делать, если /voice не активируется или микрофон не слышит?
Самые частые проблемы. Voice mode requires a Claude.ai account — значит вы залогинены через API key или сторонний провайдер, запустите /login. Microphone access is denied — выдать разрешение терминалу в System Settings → Privacy & Security → Microphone (macOS) или Settings → Privacy & security → Microphone (Windows). На macOS, если терминал не показан в списке — `tccutil reset Microphone com.apple.Terminal` (или com.googlecode.iterm2 для iTerm), потом перезапуск терминала через Cmd+Q. No audio recording tool found на Linux — установить SoX (`sudo apt-get install sox`). Если ничего не работает в WSL — установить `sox libsox-fmt-pulse` (только sox подтянет ALSA-бэкенд, который не пишет в WSL).
Где /voice не покрывает workflow и нужен внешний voice-tool?
Три основных сценария. Первое — cross-IDE workflow: если вы работаете в Cursor / JetBrains / VS Code (без расширения Claude Code) / Slack / Telegram — встроенный /voice не вставляет туда текст. Системный voice-typing (Wispr Flow, Диктуй, Handy) работает через эмуляцию клавиатуры на уровне ОС и пишет в любое окно с курсором. Второе — режим трансформации существующего кода: голосом сказать «перепиши выделенный блок на TypeScript / добавь error handling / переведи комментарии на английский» — у /voice такого нет, он только надиктовывает новый текст. Третье — работа через Anthropic API напрямую (не через claude.ai): тогда /voice выключен, нужен внешний tool.

Попробуйте Диктуй бесплатно

30 минут навсегда. Без карты, без trial. Если не зайдёт за первые 10 промптов — нет смысла платить.

Скачать для Windows и macOS