Аудио в текст онлайн — с разделением голосов и таймкодами

Загрузите аудиозапись интервью, лекции, звонка или диктофонной записи — получите готовый текст с таймкодами, разделением голосов и кратким содержанием. Без установки программ, без регистрации для пробы. Поддержка MP3, WAV, M4A, OGG, OPUS, FLAC.

2 мин
Демо бесплатно
5 ГБ
Макс. размер файла
8
Голосов на записи
0,80 ₽
За минуту от

Что делает сервис

DeepScribe берёт аудиофайл и возвращает текстовую расшифровку с привязкой к времени: каждая реплика начинается с таймкода (например, 00:14:32), отмечен спикер («Голос 1», «Голос 2», ...). Дополнительно генерируется краткое содержание разговора и список задач, если он логически вытекает из беседы (для встреч, планёрок, созвонов).

Подходит для расшифровки интервью, звонков отдела продаж, CustDev-исследований, фокус-групп, лекций и вебинаров, судебных аудиозаписей, диктофонных записей и любого другого аудиоконтента на русском языке. Также поддерживается английский, украинский, немецкий и ещё несколько европейских языков.

Как перевести аудио в текст

ШАГ 1

Загрузите файл

Перетащите MP3 / WAV / M4A / OGG в окно браузера или выберите файл с диска. Для пробы — без регистрации, первые 2 минуты бесплатно.

ШАГ 2

Подождите обработку

В среднем 15 минут записи обрабатываются за 1 минуту. Час аудио → 4–6 минут ожидания. Прогресс виден в личном кабинете и через Telegram-бот.

ШАГ 3

Откройте редактор

В личном кабинете доступен редактор: переименовать спикеров, разделить или объединить реплики, отметить нечёткие места. Все правки сохраняются в облако.

ШАГ 4

Скачайте результат

Доступные форматы: TXT, DOCX, SRT, VTT, JSON, PDF. Каждый формат с таймкодами и метками спикеров.

Что получите на выходе

Текстовая расшифровка

  • TXT — простой текст
  • DOCX — Word-документ с таблицей спикеров и таймкодами
  • JSON — структурированные данные для разработчиков

Субтитры для видео

  • SRT — стандарт для YouTube, Rutube
  • VTT — для веб-плееров и HTML5

Дополнительно

  • Краткое содержание встречи
  • Список задач (action items)
  • Темы разговора с таймкодами

Сколько стоит расшифровка аудио в текст

Бесплатно: первые 2 минуты любого файла — без регистрации.
Один файл за 99 ₽: разовая обработка без подписки, до 60 минут аудио.
Тариф Lite (490 ₽/мес): 600 минут включено, далее 2 ₽/мин. Подходит большинству.
Тариф Pro (1490 ₽/мес): 2000 минут, краткое содержание, действия Qwen-полировки, приоритет очереди.
Тариф Business (от 3 490 ₽/мес): API, кастомные DOCX-шаблоны, словари терминов, brandless-выгрузка.

На годовых планах цена за минуту падает до 0,80 ₽. Все тарифы →

Часто задаваемые вопросы

Какие форматы аудио поддерживаются?

MP3, WAV, M4A, OGG, OPUS, FLAC, AAC, WMA — все распространённые форматы. Файлы до 5 ГБ через веб-кабинет, до 250 МБ через Telegram и MAX-боты.

Распознаётся ли русский язык точно?

Да. Используется специализированная для русского языка ИИ-модель. Точность 88–92% на чистой речи. На записях с шумом или несколькими говорящими — 80–87%. Все мелкие ошибки потом легко исправить в редакторе ЛК.

Как сервис разделяет голоса?

Автоматическая диаризация: модель определяет границы реплик каждого спикера и кластеризует их по голосовым отпечаткам. Поддерживается до 8 голосов на одной записи. В редакторе можно переименовать «Голос 1» в «Иван», «Голос 2» в «Заказчик» и т.д. — имена сохранятся в DOCX и SRT.

Где хранятся загруженные файлы?

Все данные обрабатываются и хранятся на серверах в РФ. Сервис соответствует ФЗ-152 «О персональных данных». Файлы удаляются автоматически через 30 дней или сразу по запросу через редактор.

Можно ли получить субтитры SRT/VTT?

Да. После обработки в личном кабинете доступна выгрузка SRT (для YouTube, Rutube, видеомонтажа) и VTT (для веб-плееров). Таймкоды точные, по словам — не отстают от речи.

Подходит ли для записей с диктофона?

Да. Диктофонные записи лекций, интервью и встреч обрабатываются с теми же настройками. Если запись была сделана издалека или в шумном помещении — точность будет ниже, но текст всё равно читаемый.

Есть ли API для интеграции?

Да, на тарифе Business доступен REST API: POST файла → получение job_id → polling статуса → выгрузка результата в JSON или любом другом формате. Документация: /api/docs.

Смежные сценарии

Видео в текст

MP4, MOV, MKV, AVI — извлечение аудиодорожки и расшифровка.

Разделение голосов

Подробно про диаризацию: как мы различаем спикеров.

Субтитры SRT/VTT

Готовые субтитры для YouTube и Rutube за 5 минут.

Telegram-бот

Расшифровка голосовых сообщений и аудио прямо в Telegram.

Запись Zoom

Расшифровка видеоконференций и протоколы встреч.

Интервью

Для журналистов и социологических исследований.

Попробуйте на своём файле прямо сейчас

Первые 2 минуты — бесплатно, без регистрации.