Бенчмарк DeepScribe — точность и скорость по типам аудио

Мы публикуем реальные показатели качества и скорости DeepScribe на 10 категориях записей. Без маркетинговых «99% точности» — только конкретные WER на конкретных тестовых файлах. Методология описана внизу страницы; исходные файлы и эталонные транскрипты доступны по запросу.

Последнее обновление: 31 мая 2026. Тесты проводятся на наших внутренних эталонных датасетах с ручной разметкой. Реальные результаты на конкретных файлах могут отличаться в обе стороны.

Точность распознавания речи (WER)

WER (Word Error Rate) — процент ошибок на 100 слов. Чем ниже, тем лучше. 10% WER значит ~10 ошибочных слов на 100 — большинство мелкие, легко правятся в редакторе.

Тип записи	WER	Точность	Комментарий
Студийный подкаст	7-9%	91-93%	Близкий конденсаторный микрофон, чистая комната
Лекция (зал, петличка)	8-11%	89-92%	Иногда реверберация зала
Zoom-встреча	9-13%	87-91%	Зависит от качества микрофонов участников
Диктофон (1-2 м)	12-18%	82-88%	Зависит от расстояния и фонового шума
Телефонный звонок	13-19%	81-87%	Узкая полоса 8 кГц, phone-mode оптимизации
Интервью на улице	15-22%	78-85%	Уличный шум, ветер. Помогает direksjon-микрофон
Фокус-группа (6-8 чел.)	15-23%	77-85%	Перебивки, реакции хором
Голосовое в Telegram	10-14%	86-90%	OPUS кодек, обычно близкий микрофон
Запись в кафе	20-30%	70-80%	Шум посуды, чужие разговоры, музыка
Архивная запись (кассета)	25-40%	60-75%	Шум аналогового носителя, узкая частотка

Все цифры — на наших эталонных датасетах. На конкретных пользовательских файлах разброс может быть больше.

Точность диаризации (DER)

DER (Diarization Error Rate) — процент времени, когда модель приписала реплику не тому спикеру. Чем ниже, тем лучше.

Сценарий	DER	Точность
Подкаст 2 ведущих (студия)	5-10%	90-95%
Zoom 3-5 участников	8-15%	85-92%
Очная встреча (диктофон)	15-25%	75-85%
Телефон 2 спикера	15-25%	75-85%
Фокус-группа 6+ чел.	20-35%	65-80%
Шумная запись	30-45%	55-70%

Скорость обработки (RTF)

RTF (Real-Time Factor) — отношение времени обработки к длительности аудио. RTF = 0.1 значит 10 минут аудио обрабатываются за 1 минуту.

Тариф	RTF	60 мин аудио →
Lite	0.07-0.10	~4-6 минут
Pro (приоритет очереди)	0.05-0.08	~3-5 минут
Business	0.05-0.08	~3-5 минут

Время измерено от загрузки до доступности результата в личном кабинете. На длинных файлах (4+ часа) RTF немного выше из-за дополнительных пост-обработок.

Из чего состоит наш pipeline

Прозрачно — мы используем гибрид нескольких ИИ-моделей, каждая для своей задачи:

Распознавание речи (ASR): open-source модель state-of-the-art для русского языка, оптимизированная через CTranslate2 (int8_float16 quantization для скорости)
Forced alignment: отдельная модель для точных word-level timestamps
Диаризация: акустическая кластеризация + LLM-проверка по контексту диалога
Phone-mode embedder: WavLM-base-plus-sv (Microsoft), обучен на 94k часах включая телефонию
LLM-полировка: Qwen 3 локально для пунктуации и форматирования (на тарифах Lite+)
Краткое содержание и action items: Qwen 3 (на тарифах Lite+)

Что отличает наш pipeline

Two-pass decoding

На сегментах с низкой уверенностью ASR делается повторный проход с расширенным контекстом — это снижает ошибки на 1-2 п.п.

Phone detect

Если файл узкополосный (телефон) — автоматически применяется специализированный preprocess и phone-mode embedder.

LLM speaker reassign

После акустической диаризации LLM-модель проверяет контекст диалога — «спросил-ответил», «представился-узнал». Снижает DER на 3-5 п.п.

Backchannel extraction

Короткие реакции «да», «угу», «понятно» автоматически выделяются как отдельные реплики правильного спикера.

Lexical dedup

Если один и тот же спикер был ошибочно разделён на двух — система объединяет их по лексическому отпечатку.

Locally на серверах в РФ

Все модели хостятся локально. Никаких облачных API в США/EU. ФЗ-152.

Методология тестирования

Эталонные транскрипты: мы вручную разметили 50+ часов аудио в 10 категориях. Каждый файл прошёл двойную проверку.
Расчёт WER: стандартный Levenshtein distance по словам + нормализация регистра, пунктуации, чисел.
Расчёт DER: по протоколу pyannote.metrics с забегом forgiveness 250 ms на границах.
RTF: измеряется на средней нагрузке тарифа. На приоритетных тарифах (Pro, Business) RTF меньше.
Версионирование: цифры в этой таблице — для текущей версии pipeline (май 2026). При значимых изменениях мы обновляем эту страницу.

Хотите проверить на своих файлах? Бесплатное демо — первые 2 минуты любого файла.

Как сравнить с другим сервисом

Универсальный «бенчмарк всех сервисов» — это юридически рискованно (закон о рекламе) и методологически сложно. Поэтому мы рекомендуем сделать сравнение самостоятельно:

Возьмите 3-5 типовых для вас файлов (то, что вы реально будете обрабатывать)
Прогоните через 2-3 сервиса, включая DeepScribe (у нас демо без регистрации)
Сравните полученные тексты — посчитайте ошибки руками или попросите коллег оценить читаемость
Учтите дополнительные факторы: цена за минуту, форматы экспорта, наличие API, юр.соответствие

Это намного честнее любых маркетинговых таблиц «WER 92% vs 87%», потому что цифры на конкретно ваших данных могут отличаться в обе стороны.

Запросить эталонные файлы для своего теста

Если вы делаете внутреннее сравнение сервисов для команды, мы можем предоставить наши эталонные транскрипты + исходные аудиофайлы по 3-5 категориям (студия, Zoom, телефон, шум). Напишите в @DeepScribe_bot с пометкой «бенчмарк-запрос».

Бенчмарк DeepScribe — точность и скорость по типам аудио

Точность распознавания речи (WER)

Точность диаризации (DER)

Скорость обработки (RTF)

Из чего состоит наш pipeline

Что отличает наш pipeline

Two-pass decoding

Phone detect

LLM speaker reassign

Backchannel extraction

Lexical dedup

Locally на серверах в РФ

Методология тестирования

Как сравнить с другим сервисом

Запросить эталонные файлы для своего теста

Смежные материалы

Бенчмарк ASR-моделей

Подготовка аудио

Разделение голосов

Что такое транскрибация

5 ошибок

Все статьи

Проверьте качество на своём файле