Мы публикуем реальные показатели качества и скорости DeepScribe на 10 категориях записей. Без маркетинговых «99% точности» — только конкретные WER на конкретных тестовых файлах. Методология описана внизу страницы; исходные файлы и эталонные транскрипты доступны по запросу.
Последнее обновление: 31 мая 2026. Тесты проводятся на наших внутренних эталонных датасетах с ручной разметкой. Реальные результаты на конкретных файлах могут отличаться в обе стороны.
WER (Word Error Rate) — процент ошибок на 100 слов. Чем ниже, тем лучше. 10% WER значит ~10 ошибочных слов на 100 — большинство мелкие, легко правятся в редакторе.
| Тип записи | WER | Точность | Комментарий |
|---|---|---|---|
| Студийный подкаст | 7-9% | 91-93% | Близкий конденсаторный микрофон, чистая комната |
| Лекция (зал, петличка) | 8-11% | 89-92% | Иногда реверберация зала |
| Zoom-встреча | 9-13% | 87-91% | Зависит от качества микрофонов участников |
| Диктофон (1-2 м) | 12-18% | 82-88% | Зависит от расстояния и фонового шума |
| Телефонный звонок | 13-19% | 81-87% | Узкая полоса 8 кГц, phone-mode оптимизации |
| Интервью на улице | 15-22% | 78-85% | Уличный шум, ветер. Помогает direksjon-микрофон |
| Фокус-группа (6-8 чел.) | 15-23% | 77-85% | Перебивки, реакции хором |
| Голосовое в Telegram | 10-14% | 86-90% | OPUS кодек, обычно близкий микрофон |
| Запись в кафе | 20-30% | 70-80% | Шум посуды, чужие разговоры, музыка |
| Архивная запись (кассета) | 25-40% | 60-75% | Шум аналогового носителя, узкая частотка |
Все цифры — на наших эталонных датасетах. На конкретных пользовательских файлах разброс может быть больше.
DER (Diarization Error Rate) — процент времени, когда модель приписала реплику не тому спикеру. Чем ниже, тем лучше.
| Сценарий | DER | Точность |
|---|---|---|
| Подкаст 2 ведущих (студия) | 5-10% | 90-95% |
| Zoom 3-5 участников | 8-15% | 85-92% |
| Очная встреча (диктофон) | 15-25% | 75-85% |
| Телефон 2 спикера | 15-25% | 75-85% |
| Фокус-группа 6+ чел. | 20-35% | 65-80% |
| Шумная запись | 30-45% | 55-70% |
RTF (Real-Time Factor) — отношение времени обработки к длительности аудио. RTF = 0.1 значит 10 минут аудио обрабатываются за 1 минуту.
| Тариф | RTF | 60 мин аудио → |
|---|---|---|
| Lite | 0.07-0.10 | ~4-6 минут |
| Pro (приоритет очереди) | 0.05-0.08 | ~3-5 минут |
| Business | 0.05-0.08 | ~3-5 минут |
Время измерено от загрузки до доступности результата в личном кабинете. На длинных файлах (4+ часа) RTF немного выше из-за дополнительных пост-обработок.
Прозрачно — мы используем гибрид нескольких ИИ-моделей, каждая для своей задачи:
На сегментах с низкой уверенностью ASR делается повторный проход с расширенным контекстом — это снижает ошибки на 1-2 п.п.
Если файл узкополосный (телефон) — автоматически применяется специализированный preprocess и phone-mode embedder.
После акустической диаризации LLM-модель проверяет контекст диалога — «спросил-ответил», «представился-узнал». Снижает DER на 3-5 п.п.
Короткие реакции «да», «угу», «понятно» автоматически выделяются как отдельные реплики правильного спикера.
Если один и тот же спикер был ошибочно разделён на двух — система объединяет их по лексическому отпечатку.
Все модели хостятся локально. Никаких облачных API в США/EU. ФЗ-152.
Хотите проверить на своих файлах? Бесплатное демо — первые 2 минуты любого файла.
Универсальный «бенчмарк всех сервисов» — это юридически рискованно (закон о рекламе) и методологически сложно. Поэтому мы рекомендуем сделать сравнение самостоятельно:
Это намного честнее любых маркетинговых таблиц «WER 92% vs 87%», потому что цифры на конкретно ваших данных могут отличаться в обе стороны.
Если вы делаете внутреннее сравнение сервисов для команды, мы можем предоставить наши эталонные транскрипты + исходные аудиофайлы по 3-5 категориям (студия, Zoom, телефон, шум). Напишите в @DeepScribe_bot с пометкой «бенчмарк-запрос».
Сравнение open-source моделей.
Как улучшить свои показатели.
Как работает диаризация.
База для понимания метрик.
Что портит точность.
Блог.
Первые 2 минуты любой записи — бесплатно, без регистрации.