Как подготовить аудио к точной расшифровке — 10 правил

Точность ИИ-распознавания варьируется от 65% до 95% в зависимости от записи. Правильная подготовка аудио поднимает результат на 10-15 процентных пунктов — это сотни сэкономленных правок и часы редактуры. Конкретные действия — ниже.

До записи

1. Выберите тихое помещение

Фон рестриктивно влияет на качество: гул кондиционера, шум улицы, шёпот соседей. Бытовое правило: если вам приходится напрягать слух, чтобы расслышать собеседника — модели тоже будет тяжело.

2. Используйте близкий микрофон

Расстояние «рот → микрофон» должно быть 15-30 см. Идеально — петличка или гарнитура. Хуже всего — телефон на столе посреди стола переговоров на 4 человек.

3. Сделайте тест 30 секунд

Запишите фрагмент, прослушайте на наушниках. Если слышите шипение, эхо или «бубнение» — переставьте микрофон или смените комнату.

Во время записи

4. Говорите чётко, но естественно

Не нужно дикторски — это снизит ценность интервью. Просто избегайте бормотания себе под нос и обрывания фраз.

5. Не перебивайте

Перекрытия (overlap) — самый сложный случай для диаризации. Если два голоса говорят одновременно, разделить их трудно даже человеку.

6. Повторяйте имена собственные

«Это Михаил Завадский, наш CTO. Михаил, расскажите...» — при втором упоминании модель скорее верно распознает. Также можно ввести список редких слов в настройках при загрузке.

Формат файла

7. Выбирайте без сжатия с потерями — если возможно

Иерархия качества:

8. Sample rate: 16+ kHz

Минимум 16 kHz — это «золотой стандарт» для ASR-моделей. Все современные диктофоны и мессенджеры пишут с этой частотой или выше. Старые телефонные записи 8 kHz тоже распознаются, но с меньшей точностью.

Перед загрузкой

9. Не пережимайте файл «для скорости»

Сервис всё равно конвертирует в нужный формат сам. Если вы пережали WAV в MP3 64 kbps «чтобы быстрее загрузилось» — вы потеряли информацию, которую модель не восстановит. До 5 ГБ файлов мы принимаем без проблем.

10. Удалите длинную тишину (опционально)

Если в начале/конце 5+ минут тишины — обрежьте через бесплатный Audacity или ShotCut. Сервис всё равно отрежет тишину сам через VAD, но обрезка ускоряет загрузку.

Когда подготовка не поможет

Иногда исходник настолько плохой, что улучшить нельзя — только перезаписать. Признаки:

В этих случаях даже сервис с лучшим препроцессингом выдаст 60-70% точности, и редактура займёт больше времени чем расшифровка вручную.

Что делает DeepScribe сам

Не всё нужно делать руками. Сервис автоматически:

Вам нужно только дать на вход «чистую» запись — остальное мы сделаем.

Читайте также

Запись с телефона

Конкретные советы.

Сжатие без потерь

Если файл слишком большой.

5 ошибок

Чего избегать.

Расшифровка интервью

Workflow от записи до публикации.

Проверьте качество на своей записи

2 минуты бесплатно, без регистрации.