Диаризация — это автоматическое определение того, «кто когда говорит» в аудиозаписи. Не что сказано (это задача распознавания речи, ASR), а именно кто и когда. Разбираем как работает технология, какие модели сейчас лучшие и где она применяется.
Без диаризации после распознавания речи вы получаете слитный текст:
Привет всем! Спасибо что пришли. Я хотел обсудить запуск нового продукта. Хорошо. Я подготовила оценки бюджета. Тогда давайте назначим встречу на пятницу. Согласна, в три.
С диаризацией — структурированный диалог с разделёнными ролями:
[00:00] Голос 1: Привет всем! Спасибо что пришли. Я хотел обсудить запуск нового продукта. [00:08] Голос 2: Хорошо. Я подготовила оценки бюджета. [00:15] Голос 1: Тогда давайте назначим встречу на пятницу. [00:19] Голос 2: Согласна, в три.
Это разные миры с точки зрения полезности документа. Из первого варианта нельзя понять, кто что обсудил. Из второго — готовый протокол встречи.
Современная диаризация — это pipeline из 4 этапов:
Сначала аудио делится на «есть речь» / «нет речи». Это нужно чтобы не пытаться диаризовать тишину или музыку. Стандарт сейчас — Silero VAD: лёгкая, точность 95%+.
Куски речи делятся на короткие сегменты (1-2 секунды). Это самостоятельная задача — определить точки переключения между голосами по характеристикам сигнала.
Для каждого сегмента строится векторное представление голоса (embedding) — 256-мерный или 512-мерный вектор, который описывает «индивидуальный отпечаток» этого голоса. Самые распространённые модели — ECAPA-TDNN и x-vector.
Похожие embeddings группируются — это и есть «спикер 1», «спикер 2». Алгоритмы: spectral clustering, agglomerative clustering, VBx (variational Bayesian). Финальная модель — PyAnnote 3.1 — делает всё это end-to-end, выдавая готовые метки.
Точность диаризации (Diarization Error Rate, DER) зависит от:
PyAnnote 3.1 — open-source модель от Hervé Bredin (INRIA), на момент 2026 года state-of-the-art для бесплатных решений. Поверх неё мы добавили:
Демо — первые 2 минуты любого файла бесплатно без регистрации. Загрузите запись с 2-10 голосами — увидите как разделятся спикеры.