Разделение голосов на записи — кто что сказал и когда

Загрузите запись разговора или встречи — получите расшифровку, в которой каждая реплика привязана к конкретному спикеру. Сервис автоматически определяет до 8 голосов, разделяет их по таймкодам и сохраняет это разделение во всех форматах вывода (DOCX, SRT, TXT, JSON).

8
Голосов до
90%
Точность на студии
2 мин
Демо бесплатно
2 этапа
Акустика + LLM

Что такое диаризация спикеров

Диаризация (от англ. diarization, отдельное от транскрипции понятие) — это процесс автоматического определения «кто говорил и когда» на записи. На входе — аудио, на выходе — разметка вида:

00:00:00 → 00:00:12   Голос 1: Привет, как дела с проектом?
00:00:12 → 00:00:24   Голос 2: Нормально, на этой неделе закроем.
00:00:24 → 00:00:31   Голос 1: А что с тестированием?
00:00:31 → 00:00:48   Голос 3: Я уже подключился, есть пара замечаний.
        

Это не идентификация личности: модель не знает что Голос 1 — это Иван Петров. Она различает голоса по акустическим признакам (высота, тембр, манера речи) и группирует одинаковые. После обработки вы сами переименуете «Голос 1» в «Иван» через редактор.

Где это нужно

Запись звонков отдела продаж

Менеджер и клиент — нужно разделить, чтобы понять кто задавал ключевые вопросы и где возражения.

CustDev-интервью

Интервьюер и респондент. Для отчёта важна точная атрибуция цитат — кто именно произнёс ключевую боль.

Фокус-группы

6–8 участников + модератор. Ручная разметка занимает 3–5 часов на час записи, автоматическая — 5–7 минут.

HR-собеседования

Кандидат и интервьюер. Для базы знаний компании важно сохранять реплики каждого отдельно.

Судебные аудиозаписи

Допрос, переговоры, скрытая запись. Для процессуальной стенограммы атрибуция голосов критична.

Подкасты и интервью в эфире

Ведущий и гости. Готовые SRT-субтитры с именами спикеров — для YouTube-публикации эпизода.

Как мы разделяем голоса

ШАГ 1

Акустический анализ

Извлекаем голосовые отпечатки из всех сегментов записи. Каждый голос — это вектор-эмбеддинг в 256–512 измерениях.

ШАГ 2

Кластеризация

Похожие отпечатки группируются. Алгоритм сам определяет сколько голосов на записи (1–8). Hard prior — для phone-аудио предполагаем 2 спикера.

ШАГ 3

LLM-проверка

ИИ-модель просматривает диалог по контексту: «Узнаешь?» не может задать тот же спикер что только что представился. Сомнительные реплики переразмечаются.

ШАГ 4

Ручная корректировка

В редакторе ЛК — переименование спикеров, объединение/разделение реплик, swap двух голосов местами. Сохраняется во всех форматах.

Точность по типам записи

Тип записи Точность диаризации Комментарий
Подкаст / студия 90–95% Близкие микрофоны, нет перебивок
Zoom / Meet 85–92% Раздельные аудио-потоки помогают
Очная встреча с диктофоном 75–85% Зависит от расстояния и шума
Телефонный звонок 75–85% Используем WavLM phone-mode
Фокус-группа 65–80% Перебивки и реакции снижают точность
Шумная среда (улица, кафе) 55–70% Рекомендуем DeepFilterNet preprocess

Все цифры — на наших внутренних тестах с разметкой. Реальные результаты на конкретных файлах могут отличаться.

Часто задаваемые вопросы

Сколько голосов может определить сервис?

До 8 спикеров на одной записи. На звонках обычно 2–3 человека, на встречах — 4–6, на фокус-группах — 6–8. Если на записи действительно один говорящий (диктовка, лекция), система определит это автоматически и не будет искусственно делить голос на два.

Можно ли указать сколько спикеров на записи?

Да, при загрузке файла можно подсказать ожидаемое количество (точно, минимум, максимум). Это улучшает качество диаризации на 3–5%. Если не знаете точно — сервис определит автоматически.

Можно ли назвать спикеров по именам?

Да. После обработки в редакторе ЛК «Голос 1» → «Иван Петров», «Голос 2» → «Заказчик» и т.д. Bulk-rename в один клик. Имена попадают в DOCX, SRT и TXT экспорт.

А если на записи говорят одновременно?

Перекрытия (overlap) — самый сложный случай. Сервис старается отделить голоса, но возможны ошибки. В фокус-группах рекомендуется использовать запись каждого участника отдельно (если возможно) или согласиться с тем, что в местах криков и перебивок диаризация будет хуже.

Можно ли узнать «кто это?» — идентификация голоса?

Нет, это другая задача — фоноскопическая экспертиза. Диаризация только разделяет голоса между собой, не идентифицирует конкретных людей. Для опознания человека по голосу нужны эталонные образцы и судебная процедура.

Какая модель используется?

Современная open-source модель уровня state-of-the-art для русского и многоязычного аудио. На phone-audio дополнительно используется WavLM-эмбеддер (Microsoft), обученный на 94 тыс. часов разговорной речи включая телефонию.

Смежные сценарии

Аудио в текст

Полная расшифровка с диаризацией и таймкодами.

Видео в текст

То же самое для видеозаписей.

Запись Zoom

Конкретный сценарий для видеоконференций.

Интервью

Для журналистов, CustDev, исследований.

Подкасты

Расшифровка эпизодов с шоу-нотами.

Подробно про диаризацию

Технический разбор в блоге.

Загрузите запись с разговором — увидите разделение

Демо: первые 2 минуты бесплатно, без регистрации.