Что такое транскрибация аудио и видео — простыми словами

Транскрибация (от лат. transcriptio — переписывание) — это процесс перевода устной речи в письменный текст. На входе — аудиозапись или видео, на выходе — готовый текст, который можно читать, искать, редактировать и цитировать. В 2026 году подавляющее большинство расшифровок делается автоматически — с помощью ИИ-моделей.

Простой пример

Вы записали диктофоном интервью с экспертом длительностью 1 час. У вас на руках:

Транскрибация ≠ стенограмма

Эти слова часто путают, но они означают разное:

Транскрибация

  • Дословная или почти дословная запись текста
  • Сохраняются паузы, междометия (опционально)
  • Делается машиной (ИИ) или человеком
  • Подходит для подкастов, интервью, SRT

Стенограмма

  • Структурированная запись (часто для суда / совещаний)
  • Литературно обработана, лишнее убрано
  • Делается профессиональным стенографистом или редактором
  • Подходит для протоколов, юридических документов

Подробнее в статье «Чем транскрибация отличается от стенограммы».

Как работает ИИ-транскрибация

1

Предобработка аудио

Файл конвертируется в моно 16 кГц WAV. Удаляются длинные тишины, нормализуется громкость, опционально подавляется шум.

2

Распознавание речи (ASR)

ИИ-модель (Whisper, Vosk, собственная) разбивает аудио на сегменты, для каждого предсказывает наиболее вероятный текст. Используется языковая модель для контекстных слов.

3

Диаризация (если нужна)

Отдельная модель определяет «кто и когда говорил» — кластеризует голосовые отпечатки. Каждая реплика получает метку «Голос 1», «Голос 2» и т.д.

4

Постобработка

Расстановка пунктуации, исправление опечаток через LLM, форматирование, разбивка на абзацы, экспорт в DOCX/SRT/TXT.

Где это нужно

Сколько стоит транскрибация в 2026

Ручная транскрибация: 30–60 минут работы человека на 1 час аудио. Стоимость на биржах фрилансеров — 800–2000 ₽ за час записи.
Автоматическая (ИИ-транскрипция): готовый текст за 5–10 минут после загрузки. Стоимость — от 0,80 ₽ за минуту аудио (около 50 ₽ за час). В 20–40 раз дешевле ручной.

Гибридный подход: сначала ИИ делает черновик за 5 минут, потом человек проверяет и правит за 10–15 минут. Это в разы быстрее и дешевле чисто ручной транскрибации с сопоставимым качеством.

Какая точность у ИИ-транскрибации

На чистой студийной речи (подкаст, лекция в зале с микрофоном) точность распознавания русского языка достигает 88–92% по метрике WER (Word Error Rate).

На записях с шумом, перебивками или несколькими спикерами — точность падает до 80–87%. Это значит около 100–150 ошибок на типовое часовое интервью (~12 000 слов). Большинство — мелкие опечатки, которые легко исправить в редакторе за 10–15 минут.

На сильно искажённом аудио (диктофон в кармане, фон стройки, обрывистая связь) — точность может упасть до 60–70%. В этом случае результат уже требует серьёзной редактуры.

Как выбрать сервис транскрибации

Подробный обзор сервисов 2026: «Лучшие сервисы транскрибации в России 2026».

Попробуйте бесплатно

DeepScribe: первые 2 минуты любого файла — без регистрации.

Читайте также

Что такое диаризация спикеров

Технически про разделение голосов.

Транскрибация vs стенограмма

Чем они отличаются.

Как улучшить запись с телефона

Для лучшей точности расшифровки.

Все статьи блога

Гайды, обзоры, советы.