Точность ИИ-распознавания варьируется от 65% до 95% в зависимости от записи. Правильная подготовка аудио поднимает результат на 10-15 процентных пунктов — это сотни сэкономленных правок и часы редактуры. Конкретные действия — ниже.
Фон рестриктивно влияет на качество: гул кондиционера, шум улицы, шёпот соседей. Бытовое правило: если вам приходится напрягать слух, чтобы расслышать собеседника — модели тоже будет тяжело.
Расстояние «рот → микрофон» должно быть 15-30 см. Идеально — петличка или гарнитура. Хуже всего — телефон на столе посреди стола переговоров на 4 человек.
Запишите фрагмент, прослушайте на наушниках. Если слышите шипение, эхо или «бубнение» — переставьте микрофон или смените комнату.
Не нужно дикторски — это снизит ценность интервью. Просто избегайте бормотания себе под нос и обрывания фраз.
Перекрытия (overlap) — самый сложный случай для диаризации. Если два голоса говорят одновременно, разделить их трудно даже человеку.
«Это Михаил Завадский, наш CTO. Михаил, расскажите...» — при втором упоминании модель скорее верно распознает. Также можно ввести список редких слов в настройках при загрузке.
Иерархия качества:
Минимум 16 kHz — это «золотой стандарт» для ASR-моделей. Все современные диктофоны и мессенджеры пишут с этой частотой или выше. Старые телефонные записи 8 kHz тоже распознаются, но с меньшей точностью.
Сервис всё равно конвертирует в нужный формат сам. Если вы пережали WAV в MP3 64 kbps «чтобы быстрее загрузилось» — вы потеряли информацию, которую модель не восстановит. До 5 ГБ файлов мы принимаем без проблем.
Если в начале/конце 5+ минут тишины — обрежьте через бесплатный Audacity или ShotCut. Сервис всё равно отрежет тишину сам через VAD, но обрезка ускоряет загрузку.
Иногда исходник настолько плохой, что улучшить нельзя — только перезаписать. Признаки:
В этих случаях даже сервис с лучшим препроцессингом выдаст 60-70% точности, и редактура займёт больше времени чем расшифровка вручную.
Не всё нужно делать руками. Сервис автоматически:
Вам нужно только дать на вход «чистую» запись — остальное мы сделаем.
Конкретные советы.
Если файл слишком большой.
Чего избегать.
Workflow от записи до публикации.
Блог.