Как подготовить аудио к точной расшифровке — 10 правил

Точность ИИ-распознавания варьируется от 65% до 95% в зависимости от записи. Правильная подготовка аудио поднимает результат на 10-15 процентных пунктов — это сотни сэкономленных правок и часы редактуры. Конкретные действия — ниже.

До записи

1. Выберите тихое помещение

Фон рестриктивно влияет на качество: гул кондиционера, шум улицы, шёпот соседей. Бытовое правило: если вам приходится напрягать слух, чтобы расслышать собеседника — модели тоже будет тяжело.

2. Используйте близкий микрофон

Расстояние «рот → микрофон» должно быть 15-30 см. Идеально — петличка или гарнитура. Хуже всего — телефон на столе посреди стола переговоров на 4 человек.

3. Сделайте тест 30 секунд

Запишите фрагмент, прослушайте на наушниках. Если слышите шипение, эхо или «бубнение» — переставьте микрофон или смените комнату.

Во время записи

4. Говорите чётко, но естественно

Не нужно дикторски — это снизит ценность интервью. Просто избегайте бормотания себе под нос и обрывания фраз.

5. Не перебивайте

Перекрытия (overlap) — самый сложный случай для диаризации. Если два голоса говорят одновременно, разделить их трудно даже человеку.

6. Повторяйте имена собственные

«Это Михаил Завадский, наш CTO. Михаил, расскажите...» — при втором упоминании модель скорее верно распознает. Также можно ввести список редких слов в настройках при загрузке.

Формат файла

7. Выбирайте без сжатия с потерями — если возможно

Иерархия качества:

Лучше всего: WAV / FLAC (без сжатия)
Хорошо: M4A / AAC (256+ kbps), MP3 (192+ kbps)
Приемлемо: OGG/OPUS (Telegram-голосовые)
Хуже: старые MP3 64-96 kbps, телефонные записи 8 kHz

8. Sample rate: 16+ kHz

Минимум 16 kHz — это «золотой стандарт» для ASR-моделей. Все современные диктофоны и мессенджеры пишут с этой частотой или выше. Старые телефонные записи 8 kHz тоже распознаются, но с меньшей точностью.

Перед загрузкой

9. Не пережимайте файл «для скорости»

Сервис всё равно конвертирует в нужный формат сам. Если вы пережали WAV в MP3 64 kbps «чтобы быстрее загрузилось» — вы потеряли информацию, которую модель не восстановит. До 5 ГБ файлов мы принимаем без проблем.

10. Удалите длинную тишину (опционально)

Если в начале/конце 5+ минут тишины — обрежьте через бесплатный Audacity или ShotCut. Сервис всё равно отрежет тишину сам через VAD, но обрезка ускоряет загрузку.

Когда подготовка не поможет

Иногда исходник настолько плохой, что улучшить нельзя — только перезаписать. Признаки:

Очень тихая речь (запись с дальнего расстояния)
Сильное эхо в пустой комнате с гулкими стенами
Несколько человек кричат друг на друга одновременно (фокус-группы, споры)
Музыка громче речи
Сильно искажённая телефонная связь с обрывами

В этих случаях даже сервис с лучшим препроцессингом выдаст 60-70% точности, и редактура займёт больше времени чем расшифровка вручную.

Что делает DeepScribe сам

Не всё нужно делать руками. Сервис автоматически:

Конвертирует в моно 16 kHz WAV
Применяет normalize (выравнивание громкости)
Использует Silero VAD — режет длинные паузы
Препроцессинг под телефонный канал — если детектирована телефонная запись
Two-pass decoding на участках с низкой уверенностью
Полировка пунктуации через ИИ (Lite+ тарифы)

Вам нужно только дать на вход «чистую» запись — остальное мы сделаем.

Как подготовить аудио к точной расшифровке — 10 правил

До записи

1. Выберите тихое помещение

2. Используйте близкий микрофон

3. Сделайте тест 30 секунд

Во время записи

4. Говорите чётко, но естественно

5. Не перебивайте

6. Повторяйте имена собственные

Формат файла

7. Выбирайте без сжатия с потерями — если возможно

8. Sample rate: 16+ kHz

Перед загрузкой

9. Не пережимайте файл «для скорости»

10. Удалите длинную тишину (опционально)

Когда подготовка не поможет

Что делает DeepScribe сам

Читайте также

Запись с телефона

Сжатие без потерь

5 ошибок

Что такое транскрибация

Расшифровка интервью

Все статьи

Проверьте качество на своей записи