СТАТЬЯ · 23 апреля 2026 · технический разбор · ~10 мин чтения

WhisperX vs Faster-Whisper vs Vosk: бенчмарк ASR-моделей на русском

Если вы строите свой сервис распознавания речи на русском, у вас три основных open-source кандидата. Все три — Apache/MIT/commercial-friendly лицензии, можно развернуть на своих серверах. Мы тестировали их при выборе движка для DeepScribe — делимся цифрами.

Методология: датасет 50 часов русской речи разных жанров: новости, интервью, бизнес-встречи, телефонные разговоры. WER считали по edit distance с ground-truth от профессионального транскрибатора. Замеры на RTX 4090 (24 GB VRAM) и AMD EPYC 7702 (CPU only). Версии моделей актуальны на апрель 2026.

Краткое резюме (TL;DR)

WhisperX large-v3 — лучшая точность на русском, WER 5-8% на чистой речи. Главный минус — медленный на CPU. Использует GPU. Наш выбор для DeepScribe.
Faster-Whisper large-v3 — та же модель что в Whisper, но с CTranslate2 inference engine. 4-6× быстрее Whisper при той же точности. Идеален если нужен баланс скорость/качество.
Vosk (Kaldi-based) — самая лёгкая, работает на CPU без проблем. Точность ниже (WER 12-18%), но real-time стриминг на любом железе. Идеален для embedded/edge.

Точность распознавания (WER)

Word Error Rate — стандартная метрика. Меньше — лучше. WER 5% значит ~95% слов распознаны правильно.

Модель	Новости (студия)	Интервью (микрофон)	Бизнес-встреча	Телефон (8 kHz)
WhisperX large-v3	5.2%	7.8%	9.4%	14.1%
Faster-Whisper large-v3	5.3%	7.9%	9.5%	14.2%
Whisper large-v3 (vanilla OpenAI)	5.4%	8.1%	9.7%	14.4%
Vosk (ru-0.42)	12.4%	15.8%	18.6%	11.2%

Сюрприз: Vosk выиграл на телефонных записях (8 kHz моно). Причина — Vosk изначально обучался на телефонной речи (Сall центры), а Whisper — на широкополосном аудио (16 kHz+). Если ваш кейс — расшифровка звонков из колл-центра, Vosk может быть лучше.

Скорость inference

Real-time factor (RTF) — сколько секунд обработки на 1 секунду аудио. RTF=0.5 значит часовое аудио обработается за 30 минут. Меньше — лучше.

Модель	RTX 4090 (24 GB)	RTX 3060 (12 GB)	CPU AMD EPYC	Latency real-time stream
WhisperX large-v3	0.04	0.12	3.8 (не юзабельно)	—
Faster-Whisper large-v3 (int8)	0.03	0.08	1.6	~3-5 сек chunk
Vosk (ru-0.42, 1.7 GB)	CPU only	CPU only	0.4	~200ms

Вывод по скорости: Faster-Whisper c квантизацией int8 — лучший баланс. WhisperX ~25× реалтайма на 4090 (RTF 0.04), значит час аудио обработается за 144 секунды чистого ASR-времени. Vosk — единственный кто умеет real-time stream на CPU без жертв в latency.

Потребление памяти

Модель	VRAM (для GPU)	RAM (для CPU)	Размер на диске
WhisperX large-v3	~10 GB	~16 GB	2.9 GB
Faster-Whisper large-v3 (int8)	~5 GB	~8 GB	1.5 GB
Whisper large-v3 (vanilla)	~10 GB	~16 GB	2.9 GB
Vosk (ru-0.42)	—	~2 GB	1.7 GB

Faster-Whisper в int8 экономит 50% VRAM по сравнению с vanilla Whisper при минимальной потере качества (WER +0.1-0.2%). На RTX 3060 12 GB это разница между «работает» и «OOM».

Особенности на русском

Разные модели по-разному ломаются на специфике русского:

WhisperX large-v3

+ Отлично работает с акцентами (мы тестировали кавказский, татарский, среднеазиатский — стабильно)
+ Расставляет пунктуацию автоматически (с момента v3, было больно на v2)
+ Хорошо распознаёт числа («двенадцать тридцать» → «12:30»)
− Иногда «галлюцинирует» на длинных молчаниях (вставляет фразу из контекста). Чинится VAD (Silero) — у WhisperX встроен.
− Большие модели медленные на CPU — без GPU практически неюзабельно

Faster-Whisper

+ Та же модель что Whisper, всё что работает там — работает здесь
+ Quantization int8/int16 без заметной потери качества
+ batched_inference вышедший в 1.0 — ускоряет на 3-4× для длинных аудио
− Word-level timestamps менее точные чем у WhisperX (WhisperX явно делает alignment отдельной моделью)
− Нет встроенной диаризации — нужен отдельный pipeline (PyAnnote)

Vosk

+ Маленькая модель (1.7 GB) — влезает на любой сервер
+ Real-time streaming из коробки
+ CPU-only — нет привязки к GPU и драйверам CUDA
− Точность ощутимо ниже Whisper-семейства (на студийной речи WER 12% vs 5%)
− Пунктуация — только частичная, требует пост-обработки
− Числа и сокращения распознаются хуже

Примеры кода: how to use

WhisperX (Python):

import whisperx
import torch

device = "cuda"
audio = whisperx.load_audio("interview.mp3")
model = whisperx.load_model("large-v3", device, compute_type="float16")

# Распознавание
result = model.transcribe(audio, batch_size=16, language="ru")

# Word-level alignment
align_model, metadata = whisperx.load_align_model(language_code="ru", device=device)
result = whisperx.align(result["segments"], align_model, metadata, audio, device)

# Диаризация (PyAnnote)
diarize_model = whisperx.DiarizationPipeline(use_auth_token="HF_TOKEN", device=device)
diarize_segments = diarize_model(audio)
result = whisperx.assign_word_speakers(diarize_segments, result)

Faster-Whisper (Python):

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="int8")
segments, info = model.transcribe(
    "interview.mp3",
    language="ru",
    vad_filter=True,
    word_timestamps=True,
)
for seg in segments:
    print(f"[{seg.start:.2f} -> {seg.end:.2f}] {seg.text}")

Vosk (Python):

from vosk import Model, KaldiRecognizer
import wave, json

model = Model("vosk-model-ru-0.42")
wf = wave.open("phone.wav", "rb")
rec = KaldiRecognizer(model, wf.getframerate())

while True:
    data = wf.readframes(4000)
    if not data:
        break
    if rec.AcceptWaveform(data):
        print(json.loads(rec.Result())["text"])

Когда какую модель выбрать

WhisperX large-v3 — нужна максимальная точность + диаризация в одном пайплайне. Есть GPU. Сценарий: журналистика, юриспруденция, медицина, корпоративная транскрипция.
Faster-Whisper — нужна высокая точность + хороший perf на ограниченном GPU. Сценарий: SaaS-сервис на RTX 3060/4060, embedded GPU в edge-серверах.
Vosk — CPU-only, real-time stream, низкая latency важнее точности. Сценарий: колл-центры с потоком звонков, голосовые помощники в IoT-устройствах, мобильные приложения без облака.

Что используется в DeepScribe

После года тестов мы остановились на WhisperX large-v3: точность критична для нашей аудитории (юристы, журналисты, психологи), GPU у нас есть (RTX 5080 Mobile в текущем сетапе), real-time не нужен (мы делаем post-processing).

Поверх WhisperX мы добавили:

NeMo Conformer-CTC как опциональный ensemble — даёт +1-2% точности на сложной речи. По умолчанию выключен (увеличивает время в 2×), включается тоглом в личном кабинете.
Qwen 3 8B polish через локальный Ollama — расставляет пунктуацию, исправляет очевидные опечатки, фиксит регистр имён собственных.
PyAnnote 3.1 диаризация + наш LLM-reranker для точного разделения голосов в сложных сценах с перебиваниями.

Финальная точность нашего пайплайна на русском — ~95-96% на чистой речи, ~88-92% на полевых интервью. Хороший компромисс между «open-source из коробки» и «полностью кастомное решение».

Хотите такой же качество без своей разработки?

API DeepScribe — WhisperX + диаризация + полировка + саммари в одном HTTP-запросе. Демо — первые 2 минуты любого файла бесплатно без регистрации.

REST API OpenAPI Swagger