Как разделяются голоса?

Автоматическая диаризация: ИИ-модель определяет границы реплик и связывает их с одним из спикеров. Поддерживается до 8 голосов на одной записи. В редакторе ЛК можно вручную переименовать спикеров.

Можно ли получить результат в DOCX/SRT?

Да. Доступные форматы выгрузки: TXT, DOCX (с таблицей спикеров), SRT, VTT (субтитры), JSON (для разработчиков), PDF (на тарифе Business).

Аудио в текст онлайн — с разделением голосов и таймкодами

Q: Сколько стоит расшифровка аудио в текст?

От 0,80 ₽ за минуту на годовом тарифе. Разовая обработка одного файла — от 99 ₽. Бесплатное демо: первые 2 минуты любого файла без регистрации.

Q: Распознаётся ли русский язык точно?

Да. Используется специализированная для русского языка модель распознавания. Точность 88–92% на чистой речи. На записях с шумом и нескольких спикеров — 80–87%.

Q: Где хранятся файлы?

Все данные обрабатываются и хранятся на серверах в РФ. Соответствует ФЗ-152 «О персональных данных». Файлы удаляются через 30 дней (или сразу — по запросу через редактор).

Загрузите аудиозапись интервью, лекции, звонка или диктофонной записи — получите готовый текст с таймкодами, разделением голосов и кратким содержанием. Без установки программ, без регистрации для пробы. Поддержка MP3, WAV, M4A, OGG, OPUS, FLAC.

Попробовать бесплатно Личный кабинет

2 мин

Демо бесплатно

5 ГБ

Макс. размер файла

Голосов на записи

0,80 ₽

За минуту от

Что делает сервис

DeepScribe берёт аудиофайл и возвращает текстовую расшифровку с привязкой к времени: каждая реплика начинается с таймкода (например, 00:14:32), отмечен спикер («Голос 1», «Голос 2», ...). Дополнительно генерируется краткое содержание разговора и список задач, если он логически вытекает из беседы (для встреч, планёрок, созвонов).

Подходит для расшифровки интервью, звонков отдела продаж, CustDev-исследований, фокус-групп, лекций и вебинаров, судебных аудиозаписей, диктофонных записей и любого другого аудиоконтента на русском языке. Также поддерживается английский, украинский, немецкий и ещё несколько европейских языков.

Как перевести аудио в текст

ШАГ 1

Загрузите файл

Перетащите MP3 / WAV / M4A / OGG в окно браузера или выберите файл с диска. Для пробы — без регистрации, первые 2 минуты бесплатно.

ШАГ 2

Подождите обработку

В среднем 15 минут записи обрабатываются за 1 минуту. Час аудио → 4–6 минут ожидания. Прогресс виден в личном кабинете и через Telegram-бот.

ШАГ 3

Откройте редактор

В личном кабинете доступен редактор: переименовать спикеров, разделить или объединить реплики, отметить нечёткие места. Все правки сохраняются в облако.

ШАГ 4

Скачайте результат

Доступные форматы: TXT, DOCX, SRT, VTT, JSON, PDF. Каждый формат с таймкодами и метками спикеров.

Что получите на выходе

Текстовая расшифровка

TXT — простой текст
DOCX — Word-документ с таблицей спикеров и таймкодами
JSON — структурированные данные для разработчиков

Субтитры для видео

SRT — стандарт для YouTube, Rutube
VTT — для веб-плееров и HTML5

Дополнительно

Краткое содержание встречи
Список задач (action items)
Темы разговора с таймкодами

Сколько стоит расшифровка аудио в текст

Бесплатно: первые 2 минуты любого файла — без регистрации.
Один файл за 99 ₽: разовая обработка без подписки, до 60 минут аудио.
Тариф Lite (490 ₽/мес): 5 часов (300 минут) включено. Подходит большинству.
Тариф Pro (990 ₽/мес): 15 часов (900 минут), краткое содержание, Qwen-полировка, приоритет очереди.
Тариф Business (от 3 490 ₽/мес): API, кастомные DOCX-шаблоны, словари терминов, brandless-выгрузка.

На годовых планах цена за минуту падает до 0,80 ₽. Все тарифы →

Часто задаваемые вопросы

Какие форматы аудио поддерживаются?

MP3, WAV, M4A, OGG, OPUS, FLAC, AAC, WMA — все распространённые форматы. Файлы до 5 ГБ через веб-кабинет, до 250 МБ через Telegram и MAX-боты.

Распознаётся ли русский язык точно?

Да. Используется специализированная для русского языка ИИ-модель. Точность 88–92% на чистой речи. На записях с шумом или несколькими говорящими — 80–87%. Все мелкие ошибки потом легко исправить в редакторе ЛК.

Как сервис разделяет голоса?

Автоматическая диаризация: модель определяет границы реплик каждого спикера и кластеризует их по голосовым отпечаткам. Поддерживается до 8 голосов на одной записи. В редакторе можно переименовать «Голос 1» в «Иван», «Голос 2» в «Заказчик» и т.д. — имена сохранятся в DOCX и SRT.

Где хранятся загруженные файлы?

Все данные обрабатываются и хранятся на серверах в РФ. Сервис соответствует ФЗ-152 «О персональных данных». Файлы удаляются автоматически через 30 дней или сразу по запросу через редактор.

Можно ли получить субтитры SRT/VTT?

Да. После обработки в личном кабинете доступна выгрузка SRT (для YouTube, Rutube, видеомонтажа) и VTT (для веб-плееров). Таймкоды точные, по словам — не отстают от речи.

Подходит ли для записей с диктофона?

Да. Диктофонные записи лекций, интервью и встреч обрабатываются с теми же настройками. Если запись была сделана издалека или в шумном помещении — точность будет ниже, но текст всё равно читаемый.

Есть ли API для интеграции?

Да, на тарифе Business доступен REST API: POST файла → получение job_id → polling статуса → выгрузка результата в JSON или любом другом формате. Документация: /api/docs.

Аудио в текст онлайн — с разделением голосов и таймкодами

Что делает сервис

Как перевести аудио в текст

Загрузите файл

Подождите обработку

Откройте редактор

Скачайте результат

Что получите на выходе

Текстовая расшифровка

Субтитры для видео

Дополнительно

Сколько стоит расшифровка аудио в текст

Часто задаваемые вопросы

Смежные сценарии

Видео в текст

Разделение голосов

Субтитры SRT/VTT

Telegram-бот

Запись Zoom

Интервью

Попробуйте на своём файле прямо сейчас