DeepScribe
СТАТЬЯ · 10 февраля 2026 · технический разбор · ~5 мин чтения

Что такое диаризация спикеров и зачем она нужна

Диаризация — это автоматическое определение того, «кто когда говорит» в аудиозаписи. Не что сказано (это задача распознавания речи, ASR), а именно кто и когда. Разбираем как работает технология, какие модели сейчас лучшие и где она применяется.

Демо: что даёт диаризация

Без диаризации после распознавания речи вы получаете слитный текст:

Привет всем! Спасибо что пришли. Я хотел обсудить
запуск нового продукта. Хорошо. Я подготовила оценки бюджета.
Тогда давайте назначим встречу на пятницу. Согласна, в три.

С диаризацией — структурированный диалог с разделёнными ролями:

[00:00] Голос 1: Привет всем! Спасибо что пришли. Я хотел
       обсудить запуск нового продукта.

[00:08] Голос 2: Хорошо. Я подготовила оценки бюджета.

[00:15] Голос 1: Тогда давайте назначим встречу на пятницу.

[00:19] Голос 2: Согласна, в три.

Это разные миры с точки зрения полезности документа. Из первого варианта нельзя понять, кто что обсудил. Из второго — готовый протокол встречи.

Как технически работает диаризация

Современная диаризация — это pipeline из 4 этапов:

1. Voice Activity Detection (VAD)

Сначала аудио делится на «есть речь» / «нет речи». Это нужно чтобы не пытаться диаризовать тишину или музыку. Стандарт сейчас — Silero VAD: лёгкая, точность 95%+.

2. Сегментация на «голосовые тёрены»

Куски речи делятся на короткие сегменты (1-2 секунды). Это самостоятельная задача — определить точки переключения между голосами по характеристикам сигнала.

3. Извлечение голосовых embeddings

Для каждого сегмента строится векторное представление голоса (embedding) — 256-мерный или 512-мерный вектор, который описывает «индивидуальный отпечаток» этого голоса. Самые распространённые модели — ECAPA-TDNN и x-vector.

4. Кластеризация голосов

Похожие embeddings группируются — это и есть «спикер 1», «спикер 2». Алгоритмы: spectral clustering, agglomerative clustering, VBx (variational Bayesian). Финальная модель — PyAnnote 3.1 — делает всё это end-to-end, выдавая готовые метки.

Что определяет точность

Точность диаризации (Diarization Error Rate, DER) зависит от:

Где применяется диаризация

Что используется в DeepScribe

PyAnnote 3.1 — open-source модель от Hervé Bredin (INRIA), на момент 2026 года state-of-the-art для бесплатных решений. Поверх неё мы добавили:

Попробуйте диаризацию на своём аудио

Демо — первые 2 минуты любого файла бесплатно без регистрации. Загрузите запись с 2-10 голосами — увидите как разделятся спикеры.