Бенчмарк DeepScribe — точность и скорость по типам аудио

Мы публикуем реальные показатели качества и скорости DeepScribe на 10 категориях записей. Без маркетинговых «99% точности» — только конкретные WER на конкретных тестовых файлах. Методология описана внизу страницы; исходные файлы и эталонные транскрипты доступны по запросу.

Последнее обновление: 31 мая 2026. Тесты проводятся на наших внутренних эталонных датасетах с ручной разметкой. Реальные результаты на конкретных файлах могут отличаться в обе стороны.

Точность распознавания речи (WER)

WER (Word Error Rate) — процент ошибок на 100 слов. Чем ниже, тем лучше. 10% WER значит ~10 ошибочных слов на 100 — большинство мелкие, легко правятся в редакторе.

Тип записиWERТочностьКомментарий
Студийный подкаст7-9%91-93%Близкий конденсаторный микрофон, чистая комната
Лекция (зал, петличка)8-11%89-92%Иногда реверберация зала
Zoom-встреча9-13%87-91%Зависит от качества микрофонов участников
Диктофон (1-2 м)12-18%82-88%Зависит от расстояния и фонового шума
Телефонный звонок13-19%81-87%Узкая полоса 8 кГц, phone-mode оптимизации
Интервью на улице15-22%78-85%Уличный шум, ветер. Помогает direksjon-микрофон
Фокус-группа (6-8 чел.)15-23%77-85%Перебивки, реакции хором
Голосовое в Telegram10-14%86-90%OPUS кодек, обычно близкий микрофон
Запись в кафе20-30%70-80%Шум посуды, чужие разговоры, музыка
Архивная запись (кассета)25-40%60-75%Шум аналогового носителя, узкая частотка

Все цифры — на наших эталонных датасетах. На конкретных пользовательских файлах разброс может быть больше.

Точность диаризации (DER)

DER (Diarization Error Rate) — процент времени, когда модель приписала реплику не тому спикеру. Чем ниже, тем лучше.

СценарийDERТочность
Подкаст 2 ведущих (студия)5-10%90-95%
Zoom 3-5 участников8-15%85-92%
Очная встреча (диктофон)15-25%75-85%
Телефон 2 спикера15-25%75-85%
Фокус-группа 6+ чел.20-35%65-80%
Шумная запись30-45%55-70%

Скорость обработки (RTF)

RTF (Real-Time Factor) — отношение времени обработки к длительности аудио. RTF = 0.1 значит 10 минут аудио обрабатываются за 1 минуту.

ТарифRTF60 мин аудио →
Lite0.07-0.10~4-6 минут
Pro (приоритет очереди)0.05-0.08~3-5 минут
Business0.05-0.08~3-5 минут

Время измерено от загрузки до доступности результата в личном кабинете. На длинных файлах (4+ часа) RTF немного выше из-за дополнительных пост-обработок.

Из чего состоит наш pipeline

Прозрачно — мы используем гибрид нескольких ИИ-моделей, каждая для своей задачи:

Что отличает наш pipeline

Two-pass decoding

На сегментах с низкой уверенностью ASR делается повторный проход с расширенным контекстом — это снижает ошибки на 1-2 п.п.

Phone detect

Если файл узкополосный (телефон) — автоматически применяется специализированный preprocess и phone-mode embedder.

LLM speaker reassign

После акустической диаризации LLM-модель проверяет контекст диалога — «спросил-ответил», «представился-узнал». Снижает DER на 3-5 п.п.

Backchannel extraction

Короткие реакции «да», «угу», «понятно» автоматически выделяются как отдельные реплики правильного спикера.

Lexical dedup

Если один и тот же спикер был ошибочно разделён на двух — система объединяет их по лексическому отпечатку.

Locally на серверах в РФ

Все модели хостятся локально. Никаких облачных API в США/EU. ФЗ-152.

Методология тестирования

  1. Эталонные транскрипты: мы вручную разметили 50+ часов аудио в 10 категориях. Каждый файл прошёл двойную проверку.
  2. Расчёт WER: стандартный Levenshtein distance по словам + нормализация регистра, пунктуации, чисел.
  3. Расчёт DER: по протоколу pyannote.metrics с забегом forgiveness 250 ms на границах.
  4. RTF: измеряется на средней нагрузке тарифа. На приоритетных тарифах (Pro, Business) RTF меньше.
  5. Версионирование: цифры в этой таблице — для текущей версии pipeline (май 2026). При значимых изменениях мы обновляем эту страницу.

Хотите проверить на своих файлах? Бесплатное демо — первые 2 минуты любого файла.

Как сравнить с другим сервисом

Универсальный «бенчмарк всех сервисов» — это юридически рискованно (закон о рекламе) и методологически сложно. Поэтому мы рекомендуем сделать сравнение самостоятельно:

  1. Возьмите 3-5 типовых для вас файлов (то, что вы реально будете обрабатывать)
  2. Прогоните через 2-3 сервиса, включая DeepScribe (у нас демо без регистрации)
  3. Сравните полученные тексты — посчитайте ошибки руками или попросите коллег оценить читаемость
  4. Учтите дополнительные факторы: цена за минуту, форматы экспорта, наличие API, юр.соответствие

Это намного честнее любых маркетинговых таблиц «WER 92% vs 87%», потому что цифры на конкретно ваших данных могут отличаться в обе стороны.

Запросить эталонные файлы для своего теста

Если вы делаете внутреннее сравнение сервисов для команды, мы можем предоставить наши эталонные транскрипты + исходные аудиофайлы по 3-5 категориям (студия, Zoom, телефон, шум). Напишите в @DeepScribe_bot с пометкой «бенчмарк-запрос».

Смежные материалы

Бенчмарк ASR-моделей

Сравнение open-source моделей.

Подготовка аудио

Как улучшить свои показатели.

Разделение голосов

Как работает диаризация.

Что такое транскрибация

База для понимания метрик.

5 ошибок

Что портит точность.

Проверьте качество на своём файле

Первые 2 минуты любой записи — бесплатно, без регистрации.