Транскрибация (от лат. transcriptio — переписывание) — это процесс перевода устной речи в письменный текст. На входе — аудиозапись или видео, на выходе — готовый текст, который можно читать, искать, редактировать и цитировать. В 2026 году подавляющее большинство расшифровок делается автоматически — с помощью ИИ-моделей.
Вы записали диктофоном интервью с экспертом длительностью 1 час. У вас на руках:
[12:34]) — его можно отредактировать, опубликовать как статью, отправить юристу для проверки, прогнать через анализатор тональности или просто перечитать перед сном.Эти слова часто путают, но они означают разное:
Подробнее в статье «Чем транскрибация отличается от стенограммы».
Файл конвертируется в моно 16 кГц WAV. Удаляются длинные тишины, нормализуется громкость, опционально подавляется шум.
ИИ-модель (Whisper, Vosk, собственная) разбивает аудио на сегменты, для каждого предсказывает наиболее вероятный текст. Используется языковая модель для контекстных слов.
Отдельная модель определяет «кто и когда говорил» — кластеризует голосовые отпечатки. Каждая реплика получает метку «Голос 1», «Голос 2» и т.д.
Расстановка пунктуации, исправление опечаток через LLM, форматирование, разбивка на абзацы, экспорт в DOCX/SRT/TXT.
Ручная транскрибация: 30–60 минут работы человека на 1 час аудио. Стоимость на биржах фрилансеров — 800–2000 ₽ за час записи.
Автоматическая (ИИ-транскрипция): готовый текст за 5–10 минут после загрузки. Стоимость — от 0,80 ₽ за минуту аудио (около 50 ₽ за час). В 20–40 раз дешевле ручной.
Гибридный подход: сначала ИИ делает черновик за 5 минут, потом человек проверяет и правит за 10–15 минут. Это в разы быстрее и дешевле чисто ручной транскрибации с сопоставимым качеством.
На чистой студийной речи (подкаст, лекция в зале с микрофоном) точность распознавания русского языка достигает 88–92% по метрике WER (Word Error Rate).
На записях с шумом, перебивками или несколькими спикерами — точность падает до 80–87%. Это значит около 100–150 ошибок на типовое часовое интервью (~12 000 слов). Большинство — мелкие опечатки, которые легко исправить в редакторе за 10–15 минут.
На сильно искажённом аудио (диктофон в кармане, фон стройки, обрывистая связь) — точность может упасть до 60–70%. В этом случае результат уже требует серьёзной редактуры.
Подробный обзор сервисов 2026: «Лучшие сервисы транскрибации в России 2026».
DeepScribe: первые 2 минуты любого файла — без регистрации.
Пошаговый гайд.
Технически про разделение голосов.
Чем они отличаются.
Для лучшей точности расшифровки.
Чего избегать.
Гайды, обзоры, советы.