транскрибация ∙ студенты

Лекция в текст: как студенту сделать конспект голосом в 2026

Лекция в текст за вечер: записать на телефон, распознать речь и собрать конспект голосом. Точность на терминах IT и медицины, бесплатные варианты для студента.

29 мая 202612 минут чтенияавтор Михаил Воинский, основатель Диктуй

Коротко

Запись лекции превращается в конспект за 15–25 минут: диктофон телефона → файл в сервис распознавания на Whisper → структурирование текста голосом в тезисы и определения. На чистом русском точность 95–98%, на лекциях с английскими терминами (IT, медицина, экономика) Whisper держит 92–96% против 60–70% у встроенной диктовки телефона. Бесплатные 30 минут у Диктуй закрывают одну пару; на сессию хватает Pro за 299 ₽/мес. Главное — превратить сырую расшифровку в конспект, а не оставить простынёй на 15 тысяч слов.

Полуторачасовая лекция — это 12–15 тысяч слов устной речи. Телефон в кармане пишет её целиком, но дома вы открываете запись и понимаете неприятное: переслушивать полтора часа ради конспекта дольше, чем сходить на пару второй раз. Запись сама по себе не экономит ни минуты — она просто перекладывает работу на вечер перед сессией.

Что реально экономит время — это превратить запись в текст, а текст в конспект. Распознавание речи в 2026 году делает первую часть за пять минут, а вторую — за пятнадцать. В сумме получается конспект, по которому можно готовиться, из лекции, которую вы записали на телефон не глядя.

Сразу обозначу интерес: Диктуй — мой продукт, и в статье он упомянут как один из вариантов. Поэтому там, где студенту хватает бесплатной встроенной диктовки или открытого решения, я пишу об этом прямо, а не тяну на подписку. Цифры по точности проверяемы — поставьте бесплатные 30 минут в любом сервисе и прогоните одну свою запись.

Зачем переводить лекцию в текст, если есть фото доски и методичка

Текст лекции решает три задачи, которые фото и методичка не закрывают.

Первое — поиск. По расшифровке вы за секунду находите момент, где разбирали конкретную тему, через Ctrl+F. В полуторачасовом аудио тот же фрагмент ищется перемоткой минут пять, и не факт что найдёте.

Второе — формулировки вашего преподавателя. На экзамене спрашивают то, что говорил ваш лектор: его определения, его примеры, его «вот это точно будет в билете». Готовый конспект из интернета — чужой курс, другой год, другая программа. Расшифровка сохраняет именно вашу лекцию.

Третье — конспект из того, что иначе пропало бы. Половину пар студент либо не успевает записать, либо пропускает. Запись плюс распознавание возвращают этот материал в текстовой форме, пригодной для подготовки.

Важная оговорка, без которой статья была бы рекламой, а не разбором: расшифровка не делает за вас учёбу. По известному исследованию Mueller и Oppenheimer 2014 студенты, которые конспектировали от руки и своими словами, на концептуальных вопросах показывали результат лучше тех, кто печатал лекцию дословно — потому что переформулирование заставляет думать, а дословная запись нет. Вывод для нас простой по смыслу: расшифровка экономит время на механическом наборе, но конспект всё равно надо осмыслить. Инструмент убирает рутину, не заменяет голову.

Как записать лекцию, чтобы её потом распознало

Качество расшифровки на 80% определяется качеством записи, и тут студент проигрывает заранее: телефон в кармане на последнем ряду — худший возможный микрофон.

Whisper — модель распознавания, на которой работает большинство сервисов, — отлично справляется с чистой речью и разваливается на гуле большой аудитории с эхом. Поэтому несколько вещей стоит сделать до лекции, а не после.

Сесть ближе. Первый-второй ряд, телефон микрофоном к лектору, экраном вверх на столе. Это поднимает точность на 10–20 пунктов по сравнению с галёркой — больше, чем любая последующая чистка звука.

Проверить формат записи. Диктофон iPhone (приложение «Диктофон», оно же Voice Memos) пишет в M4A — совместимый со всеми сервисами формат. Android-телефоны пишут в M4A или AMR в зависимости от модели; AMR часть сервисов не принимает напрямую, но он переводится в M4A одной командой. Полтора часа занимают 40–70 МБ — помещается в любой лимит загрузки.

Не глушить телефон в кармане. Запись из кармана или сумки теряет верхние частоты, и речь становится глухой. Если стесняетесь держать телефон на виду — поставьте его экраном вниз на колено, это лучше кармана.

Когда место далеко — взять микрофон или попросить запись. Петличный микрофон за 1 000–2 000 ₽ с проводом к телефону решает проблему дальнего ряда. Или проще: на большинстве потоков кто-то уже пишет лекции и скидывает в общий чат — спросите старосту. Форматы файлов с разных телефонов и как с ними работать я разбирал отдельно в гайде про перевод записи диктофона в текст.

Шаг за шагом: из записи лекции в текст

Покажу на реальном файле. Знакомый второкурсник скинул мне запись лекции по эконометрике — полтора часа, телефон на втором ряду, лектор у доски, в речи вперемешку русский и термины вроде «гетероскедастичность», «p-value», «OLS-оценка». Задача была проверить, реально ли из этого собрать конспект за вечер.

Перенос файла. С iPhone быстрее всего через Telegram «Избранное» (отправил сам себе, скачал на компьютере) или AirDrop на Mac. С Android — кабелем или загрузкой в облако. Файл оказался M4A на 58 МБ.

Загрузка в сервис. Открыл Диктуй, вкладка «Транскрибация», перетащил файл. Прогресс пошёл сразу — очередь на free-тарифе обычно не загружена. Через минуту файл загрузился, ещё через шесть с небольшим вернулась расшифровка.

Что вышло на выходе. Текст одной простынёй плюс версия с тайм-кодами (удобно перепрыгивать к моменту в аудио) плюс экспорт в .docx. По контрольной выборке из 100 предложений точность — 94%. Шесть ошибок: дважды модель не угадала фамилию автора методики, один раз «гетероскедастичность» распозналась с опечаткой, остальное — мелкие огрехи окончаний.

Где встроенная диктовка телефона провалилась бы. Я прогнал тот же файл через Apple Dictation для сравнения — 71% точности, и почти все английские термины пришли транслитом: «p-value» как «пи вэлью», «OLS» как «оэлэс». По такому тексту готовиться нельзя. Разница между моделями тут не вопрос настройки, а вопрос архитектуры — почему Whisper держит смешанную речь, а системные движки нет, я разбирал в техническом обзоре Whisper Large-v3-turbo.

Вкладка «Транскрибация» в Диктуй: запись пары перетаскивается в окно, через 5–7 минут возвращается текст. Поддерживаются M4A с iPhone, AMR с Android и OGG из Telegram — форматы, в которых пишут диктофоны телефонов.

Шесть минут на распознавание против вечера ручного набора. Но на этом этапе у меня был не конспект, а 14 тысяч слов сплошного текста с «эээ» и повторами. Самое интересное — дальше.

Из сырого текста — в нормальный конспект

Сырая расшифровка — это не конспект, а сырьё. Первая страница той лекции выглядела так:

Так, ну смотрите, эээ, гетероскедастичность это когда у нас дисперсия ошибок непостоянна, ну то есть меняется от наблюдения к наблюдению, и вот это вот проблема, потому что наши стандартные ошибки становятся, ну, смещёнными, и тогда t-статистики врут...

Читать пятнадцать таких страниц перед экзаменом — пытка. Нужен шаг структурирования: превратить поток в тезисы, вынести определения, выделить термины, убрать словесный мусор.

Быстрее всего это делает Режим трансформации — отдельная функция голосом. Выделяешь блок текста, нажимаешь хоткей, голосом говоришь, что с ним сделать: «сделай тезисный конспект, определения вынеси отдельным блоком, термины выдели жирным, убери эээ и повторы». Модель переписывает выделенное прямо на месте за 5–10 секунд, без копирования в браузер.

Режим трансформации: студент выделяет абзац сырой расшифровки, голосом даёт инструкцию «сделай тезисный конспект» — модель переписывает фрагмент за 5–10 секунд прямо на месте, без копирования в браузер.

Тот же фрагмент про гетероскедастичность после трансформации:

Гетероскедастичность — непостоянство дисперсии ошибок (меняется от наблюдения к наблюдению). Последствие: стандартные ошибки смещены → t-статистики недостоверны.

Полтора часа лекции я разбил на 12 кусков примерно по тезису-два каждый, прогнал каждый через трансформацию с одной и той же инструкцией. Заняло 18 минут вместе с беглой проверкой. На выходе — тезисный конспект на полторы страницы вместо пятнадцати страниц потока.

Слева — сырая расшифровка лекции по эконометрике: поток на 14 тысяч слов с «эээ», повторами и оборванными фразами. Справа — тот же фрагмент после структурирования голосом: тезисы, определения отдельным блоком, термины выделены. Разница — 20 минут работы вместо вечера.

Если отдельной функции трансформации под рукой нет, тот же результат даёт копирование текста в ChatGPT, GigaChat или YandexGPT с тем же промптом — просто с переключением окон и по кускам не больше 5–7 тысяч слов за раз, иначе модель теряет связность. Подробный разбор, как использовать структурирование текста голосом в повседневной работе, — в личном эксперименте с заменой клавиатуры голосом.

Почему встроенная диктовка телефона портит конспект по IT, медицине и экономике

Если ваша специальность — гуманитарная и лектор говорит на чистом русском без иностранных вставок, встроенная диктовка телефона может и сгодится. На технических, медицинских и экономических курсах — нет, и причина архитектурная.

Apple Dictation и Win+H оптимизированы под одну выбранную раскладку. Когда в русской речи встречается английский термин — «middleware», «sphere of influence», «in vitro», «cash flow» — система пытается услышать его в русской фонетике и выдаёт «мидлвеер», «ин витро» с искажениями. На лекции по программированию, где английских терминов половина, такой текст бесполезен.

Whisper обучен сразу на 99 языках и распознаёт переключения внутри фразы без ручного переключения раскладки. По публичному бенчмарку на Habr на чистой русской речи Whisper держит порядка 8% ошибок, а оптимизированные облачные реализации с шумоподавлением и нормализацией опускают это примерно до 5–6%. На смешанной русско-английской речи разрыв со встроенными движками телефона доходит до 25–30 пунктов в пользу Whisper.

Точечная добавка точности — Словарь. Это список ваших специальных терминов: фамилии авторов методик, аббревиатуры курса, латинские названия. После того как вы один раз внесли «гетероскедастичность», «апоптоз» или «LangChain», модель распознаёт их точно с первого упоминания, без переобучения. На специальной лексике это поднимает точность с 88–92% до 96–98%. Восемь способов выжать максимум из распознавания — в разборе ошибок голосового ввода и точности.

Что чаще всего ломает конспект из лекции

Четыре промаха встречаются у студентов чаще остальных — и все четыре решаются либо до записи, либо за пару минут после.

Пустой или обрывочный текст на выходе. Сервис распознал «тишину», потому что файл записан в один канал или микрофон был перекрыт сумкой. Проверка простая: послушайте 30 секунд записи в плеере перед загрузкой. Звук есть, а текст пустой — сконвертируйте файл в моно одной командой ffmpeg, это лечит большинство таких случаев.

Лектор слышен, но текст в кашу. Почти всегда это эхо большой аудитории или фоновый гул вентиляции. Распознавание пытается услышать в шуме слова и выдумывает их. Прогон записи через бесплатный Adobe Podcast Enhance перед распознаванием поднимает точность на 7–15 пунктов — он вычищает реверберацию.

Термины и фамилии стабильно перевраны. Это не поломка, а отсутствующий Словарь. Whisper не догадывается, что ваш лектор под «эм-эн-ка» имеет в виду МНК, а не «эмэнка». Внесли термин один раз — дальше распознаётся точно с первого упоминания.

Распознал, но порезал на абзацы криво. Модель расставляет тайм-коды, но не всегда видит границу мысли. Решается на этапе структурирования: при сборке конспекта голосом добавьте в инструкцию «разбей по смысловым блокам».

Запись, изначально нечитаемую для уха, не вытянет ни одна модель. Сесть ближе и проверить микрофон до пары дешевле, чем разгребать кашу после.

Что выбрать студенту под конкретный сценарий

Не бывает «лучшего сервиса» вообще — бывает подходящий под вашу пару, бюджет и специальность. Решающее дерево короче любого рейтинга.

Что у вас за лекция	Что выбрать
Чистый русский, гуманитарная пара, бюджет ноль	Встроенная диктовка ноутбука (Win+H, Apple Dictation) — бесплатно, точности хватит
Технический курс, много английских терминов	Сервис на Whisper — точность на mixed RU+EN критична
Запись раз в месяц, не больше	Free-тариф: Диктуй 30 минут без карты или TurboScribe 30 минут в день
Сессия, десяток записей за пару недель	Подписка с минутами — Диктуй Pro 299 ₽/мес (5 часов) или Unlimited 599 ₽
Приватность принципиальна, ничего в облако	Open-source Handy — локально на ноутбуке, бесплатно
Онлайн-лекция в Zoom или запись с экрана	Любой Whisper-сервис — звук вебинара чище живой аудитории

Никакого универсального ответа в этой таблице нет намеренно. Студенту-историку с чистой русской речью лектора хватит бесплатной диктовки ноутбука. Студенту-медику или айтишнику с латынью и английскими терминами нужен Whisper, иначе термины придётся править вручную. А тому, для кого важно, чтобы запись чужого голоса не уходила на сервер, подойдёт только локальное решение вроде Handy. Хотите выбирать предметно — сравнение восьми сервисов с цифрами точности на русском собрано в отдельном обзоре.

Сколько это стоит и когда оправдано

Считаем по студенческому бюджету, без округлений в свою пользу.

Бесплатно и навсегда. Встроенная диктовка ноутбука стоит ноль и работает на чистом русском. Open-source Handy — тоже ноль, распознаёт локально, но требует разобраться с установкой и английским интерфейсом. Free-тариф Диктуй — 30 минут без регистрации карты, ровно одна короткая пара или половина длинной; этого хватает, чтобы проверить точность на своей записи до любых трат.

Где упираешься в лимит. Развилка появляется быстрее, чем кажется. Бесплатных 30 минут хватает ровно на одну обычную пару — но первая же сдвоенная лекция на полтора-два часа в них уже не влезает, а в сессию таких записей набирается десяток. Десять полуторачасовых лекций — это 15 часов аудио, бесплатный тариф их не закроет. На этом месте и выбираешь: остаться на free для разовых записей или взять минуты на месяц.

Когда оправдана подписка. Pro за 299 ₽/мес даёт 300 минут (5 часов) распознавания, Unlimited за 599 ₽ — без лимита. На месяц активной подготовки к сессии это выходит дешевле одной пересдачи или часа репетитора по одному предмету.

Где не стоит платить. Если вы записываете лекции «на всякий случай» и не открываете расшифровки — не платите. Распознавание окупается, только когда вы потом реально делаете из текста конспект и готовитесь по нему. Запись ради записи смысла не имеет — это та же папка непрочитанных PDF, только в аудио.

Реальный расклад второкурсника, на чьей записи я тестировал: четыре «тяжёлых» предмета, в каждом он пишет одну ключевую лекцию в неделю перед коллоквиумом. Это примерно 6 часов аудио в месяц — укладывается в Pro. Полгода назад те же конспекты он набирал руками по выходным; сейчас вечер вторника закрывает то, на что уходила суббота.

С чего начать на ближайшей паре

Если хотите попробовать без вложений — план на одну лекцию.

Первое — на ближайшей паре сядьте ближе и запишите её на диктофон телефона. Ничего настраивать не нужно, штатное приложение пишет в подходящем формате.

Второе — дома скиньте файл на компьютер и прогоните через бесплатный тариф любого Whisper-сервиса. Посмотрите на точность глазами: на вашей записи, с вашим лектором и вашей лексикой она может отличаться от любых цифр в обзорах.

Третье — возьмите один абзац расшифровки и попробуйте структурировать его — через Режим трансформации голосом или копированием в ChatGPT с инструкцией «сделай тезисный конспект». Если результат экономит вам время на наборе — дальше считайте, сколько записей будет в сессию, и берёте подписку или остаётесь на бесплатном.

Скачать Диктуй и проверить на своей записи можно с бесплатными 30 минутами — без карты и без срока действия. Этого достаточно на одну пару, чтобы понять, ваш ли это способ готовиться, или вам проще по старинке. Если за первую лекцию не зашло — платить смысла нет.

Михаил Воинский — основатель Диктуй. Если вы студент и собрали свой словарь терминов под специальность — медицинскую латынь, экономические сокращения, названия фреймворков — пришлите его на support@diktuy.ru или в @diktuy_help. Собираю готовые наборы под разные факультеты, чтобы новичкам не приходилось набивать словарь с нуля.

Часто задаваемые вопросы

Можно ли записывать лекцию без разрешения преподавателя?

В России аудиозапись открытой лекции для личного использования (подготовка к экзамену, восстановление пропущенного) законом не запрещена — это не нарушение авторских прав, пока вы не публикуете запись и не распространяете её. Но этика и правила конкретного вуза могут отличаться: часть преподавателей против записи принципиально, часть просит не выкладывать материал. Корректный путь — предупредить лектора в начале курса, что пишете для себя. Закрытые семинары, защиты и заседания кафедры — отдельная история, там запись обычно требует согласия. Для своего конспекта по обычной потоковой лекции разрешение де-факто не нужно, но спросить — вежливо и снимает будущие вопросы.

Какая точность распознавания лекции на русском с терминами?

На чистой русской речи лектора без специальной лексики Whisper Large-v3-turbo даёт 95–98%. На лекциях с английскими терминами — программирование, медицина, экономика, биоинформатика — точность 92–96%, потому что модель обучена на 99 языках и держит переключения внутри фразы. Встроенная диктовка телефона (Apple Dictation, Win+H на ноутбуке) на тех же терминах падает до 60–70%: «гетероскедастичность», «middleware», «апоптоз» она коверкает. После загрузки 20–40 ваших терминов в Словарь точность на специальной лексике поднимается до 96–98%. Подробный разбор причин потери точности и восьми фиксов — в [статье про ошибки голосового ввода](/blog/oshibki-golosovogo-vvoda-tochnost-2026).

Сколько длится распознавание полуторачасовой лекции?

От 5 до 10 минут на облачных сервисах через инфраструктуру Groq (Диктуй, TurboScribe). Полтора часа аудио модель обрабатывает примерно за 7 минут плюс минута на загрузку файла. Локальная модель на ноутбуке без видеокарты медленнее — час записи может считаться 40–90 минут, поэтому для регулярной учёбы облако удобнее. Если файл длиннее двух часов (сдвоенная пара), часть сервисов попросит разбить его — это делается бесплатной утилитой ffmpeg одной командой, либо берёте сервис без жёсткого лимита по длительности.

Что делать, если лектор далеко и микрофон телефона плохо слышит?

Расстояние — главный враг точности. Телефон на последнем ряду в большой поточной аудитории ловит гул и эхо, и распознавание проседает на 10–20 пунктов. Три рабочих решения. Первое — сесть ближе, на первый-второй ряд, телефон микрофоном к лектору. Второе — гарнитура или петличный микрофон за 1 000–2 000 ₽, если место далеко. Третье — попросить запись у соседа с хорошим местом или у старосты, многие потоки уже скидывают аудио в общий чат. Если запись всё равно зашумлённая, прогоните её через бесплатный Adobe Podcast Enhance перед распознаванием — точность поднимется на 7–15 пунктов.

Чем распознавание лекции лучше готовых конспектов из интернета?

Готовый конспект из интернета — это чужая лекция, чаще всего по другой программе, другого года и другого преподавателя. На экзамене спрашивают то, что говорил ваш лектор, с его акцентами и примерами. Расшифровка вашей записи сохраняет именно его формулировки, его определения и то, что он отметил как «это будет на экзамене». Плюс по тексту работает поиск: за секунду находите момент, где разбирали конкретную тему, вместо перематывания полутора часов аудио. Готовые конспекты хороши как дополнение, но основа подготовки — материал вашего курса.

Бесплатные варианты для студента — что реально работает?

Три бесплатных пути. Встроенная диктовка (Win+H на ноутбуке, Apple Dictation на Mac) — ноль рублей, но точность 60–70% и плохо с терминами, годится для лекций на чистом русском без специальной лексики. Бесплатный open-source Handy — распознаёт локально на вашем ноутбуке, ничего не платите и аудио никуда не уходит, но нужно разобраться с установкой и английским интерфейсом. Free-тариф облачного сервиса — Диктуй даёт 30 минут без карты (хватает на одну пару для теста), TurboScribe — 30 минут в день. Для одной-двух лекций в месяц бесплатного тарифа достаточно; на сессию с десятком записей считайте подписку.

Как из распознанного текста сделать короткий конспект, а не простыню?

Сырая расшифровка полуторачасовой лекции — 12–15 тысяч слов сплошным потоком, читать это бессмысленно. Нужен шаг структурирования. Самый быстрый способ — Режим трансформации голосом: выделяете блок текста, даёте инструкцию «сделай тезисный конспект, определения вынеси отдельно, термины выдели жирным, убери повторы». Альтернатива без отдельной фичи — скопировать текст в ChatGPT, GigaChat или YandexGPT с тем же промптом. Важная оговорка: даже идеально структурированный конспект не заменяет того, что вы сами его прочитали и осмыслили — по исследованию [Mueller и Oppenheimer 2014](https://journals.sagepub.com/doi/10.1177/0956797614524581) ручная переработка материала запоминается лучше пассивной расшифровки. Расшифровка экономит время на наборе, а не на учёбе.

Работает ли это для онлайн-лекций в Zoom и записей с экрана?

Да, и даже проще, чем с диктофоном. Онлайн-лекция в Zoom, Teams или на платформе вуза записывается прямо в видео — звук там чище, чем с телефона в аудитории, без фонового шума. Сохраняете запись (MP4 или ссылку), загружаете в сервис транскрибации — он сам извлекает аудиодорожку и распознаёт. Точность на чистой записи вебинара обычно выше, чем на живой лекции, 95–98% на русском. Пошаговый разбор работы с видеозаписями — в [гайде про транскрибацию видео в текст](/blog/transkribatsiya-video-v-tekst-poshagovo-2026).