Загрузите запись разговора или встречи — получите расшифровку, в которой каждая реплика привязана к конкретному спикеру. Сервис автоматически определяет до 8 голосов, разделяет их по таймкодам и сохраняет это разделение во всех форматах вывода (DOCX, SRT, TXT, JSON).
Диаризация (от англ. diarization, отдельное от транскрипции понятие) — это процесс автоматического определения «кто говорил и когда» на записи. На входе — аудио, на выходе — разметка вида:
00:00:00 → 00:00:12 Голос 1: Привет, как дела с проектом?
00:00:12 → 00:00:24 Голос 2: Нормально, на этой неделе закроем.
00:00:24 → 00:00:31 Голос 1: А что с тестированием?
00:00:31 → 00:00:48 Голос 3: Я уже подключился, есть пара замечаний.
Это не идентификация личности: модель не знает что Голос 1 — это Иван Петров. Она различает голоса по акустическим признакам (высота, тембр, манера речи) и группирует одинаковые. После обработки вы сами переименуете «Голос 1» в «Иван» через редактор.
Менеджер и клиент — нужно разделить, чтобы понять кто задавал ключевые вопросы и где возражения.
Интервьюер и респондент. Для отчёта важна точная атрибуция цитат — кто именно произнёс ключевую боль.
6–8 участников + модератор. Ручная разметка занимает 3–5 часов на час записи, автоматическая — 5–7 минут.
Кандидат и интервьюер. Для базы знаний компании важно сохранять реплики каждого отдельно.
Допрос, переговоры, скрытая запись. Для процессуальной стенограммы атрибуция голосов критична.
Ведущий и гости. Готовые SRT-субтитры с именами спикеров — для YouTube-публикации эпизода.
Извлекаем голосовые отпечатки из всех сегментов записи. Каждый голос — это вектор-эмбеддинг в 256–512 измерениях.
Похожие отпечатки группируются. Алгоритм сам определяет сколько голосов на записи (1–8). Hard prior — для phone-аудио предполагаем 2 спикера.
ИИ-модель просматривает диалог по контексту: «Узнаешь?» не может задать тот же спикер что только что представился. Сомнительные реплики переразмечаются.
В редакторе ЛК — переименование спикеров, объединение/разделение реплик, swap двух голосов местами. Сохраняется во всех форматах.
| Тип записи | Точность диаризации | Комментарий |
|---|---|---|
| Подкаст / студия | 90–95% | Близкие микрофоны, нет перебивок |
| Zoom / Meet | 85–92% | Раздельные аудио-потоки помогают |
| Очная встреча с диктофоном | 75–85% | Зависит от расстояния и шума |
| Телефонный звонок | 75–85% | Используем WavLM phone-mode |
| Фокус-группа | 65–80% | Перебивки и реакции снижают точность |
| Шумная среда (улица, кафе) | 55–70% | Рекомендуем DeepFilterNet preprocess |
Все цифры — на наших внутренних тестах с разметкой. Реальные результаты на конкретных файлах могут отличаться.
До 8 спикеров на одной записи. На звонках обычно 2–3 человека, на встречах — 4–6, на фокус-группах — 6–8. Если на записи действительно один говорящий (диктовка, лекция), система определит это автоматически и не будет искусственно делить голос на два.
Да, при загрузке файла можно подсказать ожидаемое количество (точно, минимум, максимум). Это улучшает качество диаризации на 3–5%. Если не знаете точно — сервис определит автоматически.
Да. После обработки в редакторе ЛК «Голос 1» → «Иван Петров», «Голос 2» → «Заказчик» и т.д. Bulk-rename в один клик. Имена попадают в DOCX, SRT и TXT экспорт.
Перекрытия (overlap) — самый сложный случай. Сервис старается отделить голоса, но возможны ошибки. В фокус-группах рекомендуется использовать запись каждого участника отдельно (если возможно) или согласиться с тем, что в местах криков и перебивок диаризация будет хуже.
Нет, это другая задача — фоноскопическая экспертиза. Диаризация только разделяет голоса между собой, не идентифицирует конкретных людей. Для опознания человека по голосу нужны эталонные образцы и судебная процедура.
Современная open-source модель уровня state-of-the-art для русского и многоязычного аудио. На phone-audio дополнительно используется WavLM-эмбеддер (Microsoft), обученный на 94 тыс. часов разговорной речи включая телефонию.
Полная расшифровка с диаризацией и таймкодами.
То же самое для видеозаписей.
Конкретный сценарий для видеоконференций.
Для журналистов, CustDev, исследований.
Расшифровка эпизодов с шоу-нотами.
Технический разбор в блоге.
Демо: первые 2 минуты бесплатно, без регистрации.