СТАТЬЯ · 10 февраля 2026 · технический разбор · ~5 мин чтения

Что такое диаризация спикеров и зачем она нужна

Диаризация — это автоматическое определение того, «кто когда говорит» в аудиозаписи. Не что сказано (это задача распознавания речи, ASR), а именно кто и когда. Разбираем как работает технология, какие модели сейчас лучшие и где она применяется.

Демо: что даёт диаризация

Без диаризации после распознавания речи вы получаете слитный текст:

Привет всем! Спасибо что пришли. Я хотел обсудить
запуск нового продукта. Хорошо. Я подготовила оценки бюджета.
Тогда давайте назначим встречу на пятницу. Согласна, в три.

С диаризацией — структурированный диалог с разделёнными ролями:

[00:00] Голос 1: Привет всем! Спасибо что пришли. Я хотел
       обсудить запуск нового продукта.

[00:08] Голос 2: Хорошо. Я подготовила оценки бюджета.

[00:15] Голос 1: Тогда давайте назначим встречу на пятницу.

[00:19] Голос 2: Согласна, в три.

Это разные миры с точки зрения полезности документа. Из первого варианта нельзя понять, кто что обсудил. Из второго — готовый протокол встречи.

Как технически работает диаризация

Современная диаризация — это pipeline из 4 этапов:

1. Voice Activity Detection (VAD)

Сначала аудио делится на «есть речь» / «нет речи». Это нужно чтобы не пытаться диаризовать тишину или музыку. Стандарт сейчас — Silero VAD: лёгкая, точность 95%+.

2. Сегментация на «голосовые тёрены»

Куски речи делятся на короткие сегменты (1-2 секунды). Это самостоятельная задача — определить точки переключения между голосами по характеристикам сигнала.

3. Извлечение голосовых embeddings

Для каждого сегмента строится векторное представление голоса (embedding) — 256-мерный или 512-мерный вектор, который описывает «индивидуальный отпечаток» этого голоса. Самые распространённые модели — ECAPA-TDNN и x-vector.

4. Кластеризация голосов

Похожие embeddings группируются — это и есть «спикер 1», «спикер 2». Алгоритмы: spectral clustering, agglomerative clustering, VBx (variational Bayesian). Финальная модель — PyAnnote 3.1 — делает всё это end-to-end, выдавая готовые метки.

Что определяет точность

Точность диаризации (Diarization Error Rate, DER) зависит от:

Качество записи — чистая студийная: DER 5-10%. Полевая с шумом: 15-25%.
Количество спикеров — 2 голоса разделяются на ~95%, 10 голосов — на 60-70%. Хорошее правило: чем больше спикеров, тем больше ошибок «слияния» (двух человек считают одним).
Различимость голосов — мужской + женский = почти идеально. Два мужских с близкими тембрами — сложнее.
Перебивания и одновременная речь — модели плохо справляются. PyAnnote 3.1 умеет помечать overlap-segments, но точность на них падает.
Эхо и реверберация — реверб «размазывает» голос во времени, embedding становится менее точным.

Где применяется диаризация

Транскрипция встреч — главное применение. Без неё DOCX-протокол бесполезен.
Колл-центры — разделение реплик оператора и клиента для аналитики (qualscoring, sentiment analysis).
Подкасты и YouTube — субтитры с указанием говорящего, индексация эпизодов.
Юриспруденция — расшифровка переговоров с указанием кто что сказал (информационная стенограмма для дела).
Медицина — приёмы врача с разделением «доктор / пациент» для медкарт.
Журналистика — интервью с готовым «Корреспондент: … Эксперт: …» в DOCX.
Биометрия — speaker identification (тот же ECAPA embedding можно использовать чтобы определить «это голос Иванова или нет»). DeepScribe на Business позволяет загрузить образцы голосов команды и DeepScribe в новых записях будет автоматически проставлять имена.

Что используется в DeepScribe

PyAnnote 3.1 — open-source модель от Hervé Bredin (INRIA), на момент 2026 года state-of-the-art для бесплатных решений. Поверх неё мы добавили:

LLM-reranker через локальный Qwen 3 — на спорных границах диаризации модель «читает» текст до/после и решает по лингвистической логике, где переключился спикер.
Smart merge микро-сегментов — соседние сегменты одного спикера склеиваются если пауза между ними <0.5 сек (избегаем фрагментации «эээ» в отдельный голос).
Lexical fingerprint dedup — если два «голоса» содержат почти одинаковые слова в близких таймкодах — это эхо, склеиваем.
Speaker enrollment (Business) — загружаете эталонные образцы голосов, DeepScribe идентифицирует и сразу проставляет имена.

Попробуйте диаризацию на своём аудио

Демо — первые 2 минуты любого файла бесплатно без регистрации. Загрузите запись с 2-10 голосами — увидите как разделятся спикеры.

Войти в личный кабинет Сценарий Zoom-встреч