Загрузите аудиозапись интервью, лекции, звонка или диктофонной записи — получите готовый текст с таймкодами, разделением голосов и кратким содержанием. Без установки программ, без регистрации для пробы. Поддержка MP3, WAV, M4A, OGG, OPUS, FLAC.
DeepScribe берёт аудиофайл и возвращает текстовую расшифровку с привязкой к времени:
каждая реплика начинается с таймкода (например, 00:14:32), отмечен спикер
(«Голос 1», «Голос 2», ...). Дополнительно генерируется краткое содержание разговора
и список задач, если он логически вытекает из беседы (для встреч, планёрок, созвонов).
Подходит для расшифровки интервью, звонков отдела продаж, CustDev-исследований, фокус-групп, лекций и вебинаров, судебных аудиозаписей, диктофонных записей и любого другого аудиоконтента на русском языке. Также поддерживается английский, украинский, немецкий и ещё несколько европейских языков.
Перетащите MP3 / WAV / M4A / OGG в окно браузера или выберите файл с диска. Для пробы — без регистрации, первые 2 минуты бесплатно.
В среднем 15 минут записи обрабатываются за 1 минуту. Час аудио → 4–6 минут ожидания. Прогресс виден в личном кабинете и через Telegram-бот.
В личном кабинете доступен редактор: переименовать спикеров, разделить или объединить реплики, отметить нечёткие места. Все правки сохраняются в облако.
Доступные форматы: TXT, DOCX, SRT, VTT, JSON, PDF. Каждый формат с таймкодами и метками спикеров.
Бесплатно: первые 2 минуты любого файла — без регистрации.
Один файл за 99 ₽: разовая обработка без подписки, до 60 минут аудио.
Тариф Lite (490 ₽/мес): 600 минут включено, далее 2 ₽/мин. Подходит большинству.
Тариф Pro (1490 ₽/мес): 2000 минут, краткое содержание, действия Qwen-полировки, приоритет очереди.
Тариф Business (от 3 490 ₽/мес): API, кастомные DOCX-шаблоны, словари терминов, brandless-выгрузка.
На годовых планах цена за минуту падает до 0,80 ₽. Все тарифы →
MP3, WAV, M4A, OGG, OPUS, FLAC, AAC, WMA — все распространённые форматы. Файлы до 5 ГБ через веб-кабинет, до 250 МБ через Telegram и MAX-боты.
Да. Используется специализированная для русского языка ИИ-модель. Точность 88–92% на чистой речи. На записях с шумом или несколькими говорящими — 80–87%. Все мелкие ошибки потом легко исправить в редакторе ЛК.
Автоматическая диаризация: модель определяет границы реплик каждого спикера и кластеризует их по голосовым отпечаткам. Поддерживается до 8 голосов на одной записи. В редакторе можно переименовать «Голос 1» в «Иван», «Голос 2» в «Заказчик» и т.д. — имена сохранятся в DOCX и SRT.
Все данные обрабатываются и хранятся на серверах в РФ. Сервис соответствует ФЗ-152 «О персональных данных». Файлы удаляются автоматически через 30 дней или сразу по запросу через редактор.
Да. После обработки в личном кабинете доступна выгрузка SRT (для YouTube, Rutube, видеомонтажа) и VTT (для веб-плееров). Таймкоды точные, по словам — не отстают от речи.
Да. Диктофонные записи лекций, интервью и встреч обрабатываются с теми же настройками. Если запись была сделана издалека или в шумном помещении — точность будет ниже, но текст всё равно читаемый.
Да, на тарифе Business доступен REST API: POST файла → получение job_id → polling статуса → выгрузка результата в JSON или любом другом формате. Документация: /api/docs.
MP4, MOV, MKV, AVI — извлечение аудиодорожки и расшифровка.
Подробно про диаризацию: как мы различаем спикеров.
Готовые субтитры для YouTube и Rutube за 5 минут.
Расшифровка голосовых сообщений и аудио прямо в Telegram.
Расшифровка видеоконференций и протоколы встреч.
Для журналистов и социологических исследований.
Первые 2 минуты — бесплатно, без регистрации.