Какая точность диаризации?

На студийном аудио — 90–95% точность. На записи телефонного звонка — 75–85%. На фоновом шуме и перебивках — 65–80%. Ошибки можно поправить в редакторе ЛК.

Можно ли указать имена спикеров?

Да. После обработки в редакторе можно переименовать «Голос 1» → «Иван Петров», «Голос 2» → «Заказчик» и т.д. Имена сохраняются во всех экспортных форматах (DOCX, SRT, TXT).

Как сервис различает голоса?

Используется ИИ-модель, которая извлекает голосовые отпечатки (embeddings) и кластеризует их. На входе — звук, на выходе — границы каждой реплики с привязкой к одному из спикеров. Затем второй этап: LLM-проверка по контексту диалога — если по смыслу реплика принадлежит другому человеку, она переразмечается.

Работает ли на телефонных звонках?

Да, специально оптимизировано для телефонной полосы 8 кГц. Качество ниже чем на студийной записи, но достаточно для повседневных задач (запись звонка клиенту, переговоры). На phone-audio мы используем WavLM-эмбеддер, обученный на 94 тыс. часов телефонных записей.

Разделение голосов на записи — кто что сказал и когда

Загрузите запись разговора или встречи — получите расшифровку, в которой каждая реплика привязана к конкретному спикеру. Сервис автоматически определяет до 8 голосов, разделяет их по таймкодам и сохраняет это разделение во всех форматах вывода (DOCX, SRT, TXT, JSON).

Попробовать разделение бесплатно Личный кабинет

Голосов до

90%

Точность на студии

2 мин

Демо бесплатно

2 этапа

Акустика + LLM

Что такое диаризация спикеров

Диаризация (от англ. diarization, отдельное от транскрипции понятие) — это процесс автоматического определения «кто говорил и когда» на записи. На входе — аудио, на выходе — разметка вида:

00:00:00 → 00:00:12   Голос 1: Привет, как дела с проектом?
00:00:12 → 00:00:24   Голос 2: Нормально, на этой неделе закроем.
00:00:24 → 00:00:31   Голос 1: А что с тестированием?
00:00:31 → 00:00:48   Голос 3: Я уже подключился, есть пара замечаний.

Это не идентификация личности: модель не знает что Голос 1 — это Иван Петров. Она различает голоса по акустическим признакам (высота, тембр, манера речи) и группирует одинаковые. После обработки вы сами переименуете «Голос 1» в «Иван» через редактор.

Где это нужно

Запись звонков отдела продаж

Менеджер и клиент — нужно разделить, чтобы понять кто задавал ключевые вопросы и где возражения.

CustDev-интервью

Интервьюер и респондент. Для отчёта важна точная атрибуция цитат — кто именно произнёс ключевую боль.

Фокус-группы

6–8 участников + модератор. Ручная разметка занимает 3–5 часов на час записи, автоматическая — 5–7 минут.

HR-собеседования

Кандидат и интервьюер. Для базы знаний компании важно сохранять реплики каждого отдельно.

Судебные аудиозаписи

Допрос, переговоры, скрытая запись. Для процессуальной стенограммы атрибуция голосов критична.

Подкасты и интервью в эфире

Ведущий и гости. Готовые SRT-субтитры с именами спикеров — для YouTube-публикации эпизода.

Как мы разделяем голоса

ШАГ 1

Акустический анализ

Извлекаем голосовые отпечатки из всех сегментов записи. Каждый голос — это вектор-эмбеддинг в 256–512 измерениях.

ШАГ 2

Кластеризация

Похожие отпечатки группируются. Алгоритм сам определяет сколько голосов на записи (1–8). Hard prior — для phone-аудио предполагаем 2 спикера.

ШАГ 3

LLM-проверка

ИИ-модель просматривает диалог по контексту: «Узнаешь?» не может задать тот же спикер что только что представился. Сомнительные реплики переразмечаются.

ШАГ 4

Ручная корректировка

В редакторе ЛК — переименование спикеров, объединение/разделение реплик, swap двух голосов местами. Сохраняется во всех форматах.

Точность по типам записи

Тип записи	Точность диаризации	Комментарий
Подкаст / студия	90–95%	Близкие микрофоны, нет перебивок
Zoom / Meet	85–92%	Раздельные аудио-потоки помогают
Очная встреча с диктофоном	75–85%	Зависит от расстояния и шума
Телефонный звонок	75–85%	Используем WavLM phone-mode
Фокус-группа	65–80%	Перебивки и реакции снижают точность
Шумная среда (улица, кафе)	55–70%	Рекомендуем DeepFilterNet preprocess

Все цифры — на наших внутренних тестах с разметкой. Реальные результаты на конкретных файлах могут отличаться.

Часто задаваемые вопросы

Сколько голосов может определить сервис?

До 8 спикеров на одной записи. На звонках обычно 2–3 человека, на встречах — 4–6, на фокус-группах — 6–8. Если на записи действительно один говорящий (диктовка, лекция), система определит это автоматически и не будет искусственно делить голос на два.

Можно ли указать сколько спикеров на записи?

Да, при загрузке файла можно подсказать ожидаемое количество (точно, минимум, максимум). Это улучшает качество диаризации на 3–5%. Если не знаете точно — сервис определит автоматически.

Можно ли назвать спикеров по именам?

Да. После обработки в редакторе ЛК «Голос 1» → «Иван Петров», «Голос 2» → «Заказчик» и т.д. Bulk-rename в один клик. Имена попадают в DOCX, SRT и TXT экспорт.

А если на записи говорят одновременно?

Перекрытия (overlap) — самый сложный случай. Сервис старается отделить голоса, но возможны ошибки. В фокус-группах рекомендуется использовать запись каждого участника отдельно (если возможно) или согласиться с тем, что в местах криков и перебивок диаризация будет хуже.

Можно ли узнать «кто это?» — идентификация голоса?

Нет, это другая задача — фоноскопическая экспертиза. Диаризация только разделяет голоса между собой, не идентифицирует конкретных людей. Для опознания человека по голосу нужны эталонные образцы и судебная процедура.

Какая модель используется?

Современная open-source модель уровня state-of-the-art для русского и многоязычного аудио. На phone-audio дополнительно используется WavLM-эмбеддер (Microsoft), обученный на 94 тыс. часов разговорной речи включая телефонию.

Разделение голосов на записи — кто что сказал и когда

Что такое диаризация спикеров

Где это нужно

Запись звонков отдела продаж

CustDev-интервью

Фокус-группы

HR-собеседования

Судебные аудиозаписи

Подкасты и интервью в эфире

Как мы разделяем голоса

Акустический анализ

Кластеризация

LLM-проверка

Ручная корректировка

Точность по типам записи

Часто задаваемые вопросы

Смежные сценарии

Аудио в текст

Видео в текст

Запись Zoom

Интервью

Подкасты

Подробно про диаризацию

Загрузите запись с разговором — увидите разделение