Если вам нужно автоматически расшифровать аудио или видео на русском — на рынке РФ два очевидных варианта: DeepScribe (тот, кого вы сейчас читаете) и Yandex SpeechKit (часть Yandex Cloud). Это разные продукты для разных задач — и выбор не так очевиден, как кажется. Разберём по 7 параметрам и дадим рекомендацию: что когда брать.
| Параметр | DeepScribe | Yandex SpeechKit | Кто лучше |
|---|---|---|---|
| Точность на русском |
WhisperX large-v3, WER ~5-8% на чистой студийной записи, 10-15% на шуме. Open-source модель с регулярными апдейтами. | Собственная модель Яндекса. По публичным бенчмаркам сопоставима с WhisperX large-v3 на коротких командах, чуть хуже на длинных диалогах (контекст 30 сек vs наш 60 сек). | DeepScribe |
| Разделение голосов (диаризация) |
PyAnnote 3.1 — автоматически определяет 2-10 спикеров. В транскрипте: Голос 1, Голос 2. На Pro+ можно переименовать в имена. | Есть отдельная диаризация в составе SpeechKit Premium, но в стандартном API не включена. Требует отдельной настройки и тарификации. | DeepScribe |
| Цена за час аудио |
На тарифе Pro 990 ₽/мес = 15 часов ≈ 66 ₽/час. На Business — 60 часов за 3 490 ₽ ≈ 40 ₽/час. Без подписки — 150 ₽/час (pay-as-you-go). | Pay-as-you-go: 0,72 ₽/мин × 60 = 43 ₽/час. При больших объёмах со скидками — до 30 ₽/час. | Yandex |
| Готовый результат |
DOCX с разделением голосов, тайм-кодами, кратким содержанием и списком задач. SRT/VTT для видео. PDF. Готов к публикации. | JSON с raw-сегментами слов и таймкодами. Дальше нужно самому конвертировать в DOCX, генерировать саммари, делать диаризацию. | DeepScribe |
| Латентность | Async (для расшифровки): 10-20 минут на час аудио. Не стрим. Подходит для встреч, подкастов, интервью. | Real-time stream API: до 200ms задержки между речью и текстом. Подходит для ассистентов, IVR, live-субтитров. | Yandex (для real-time) |
| Простота использования |
Telegram-бот → загрузил файл → готово. Веб-кабинет с редактором. REST API для разработчиков. 0 минут до первого результата. | Регистрация в Yandex Cloud, IAM-токены, SDK, документация на десятки страниц. 1-2 часа до первого работающего вызова. | DeepScribe |
| ФЗ-152 и безопасность |
Серверы в РФ, ФЗ-152, чеки 54-ФЗ. Аудио не уходит во внешние API. Удаляется через 30 дней. | Серверы Yandex Cloud в РФ, ФЗ-152, чеки 54-ФЗ. Корпоративный DPA при больших контрактах. | Паритет |
Да, и это популярный подход у крупных интеграций:
Так делают, например, несколько HR-tech и LegalTech-стартапов, с которыми мы работаем: real-time показывает пользователю что распознавание идёт, после встречи приходит «нормальный документ» для архива.
Не существует «лучшего» сервиса — есть лучший под конкретную задачу. Если вы — журналист, психолог, юрист, подкастер, HR — берите DeepScribe, это сэкономит вам время и не потребует разработки. Если вы — разработчик, и встраиваете распознавание в продукт — изучите SpeechKit, у него ниже цена на объёмах и есть стрим.
Если сомневаетесь — попробуйте оба на одном файле. DeepScribe демо — первые 2 минуты любого файла бесплатно, без регистрации — @DeepScribe_bot. SpeechKit — на старте Yandex Cloud даёт 4 000 ₽ грантовых. Сравните результаты на своём аудио — и выбирайте по ощущению.
Демо — первые 2 минуты любого файла бесплатно, без регистрации. Дальше — подписка от 490 ₽/мес или разовая обработка от 99 ₽. Час аудио → готовый DOCX с разделением голосов за 10-20 минут.