Этим постом я постараюсь ответить на вопросы влияния качества звука на распознавание речи. На самом деле, я не очень разбираюсь в этом вопросе. Как мне кажется, распознавание речи не очень требовательно к качеству звукозаписи — это не музыка. Поэтому даже записи с невысоким битрейтом хорошо распознаются. А вот алгоритмы сжатия с потерей информации, к которым относятся большинство популярных форматов типа mp3, могут здорово попортить картину. Больших исследований я не проводил, поэтому, если сможете, поделитесь в комментариях своим мнением.
Хочу написать отзыв о программе Speechpad.ru. Программа не плохая только, если надиктовывать текст в микрофон своим голосом. В остальном много ошибок. Например если переводить в текст запись с ютюба (интервью с политиками, спортсменами и тд.), программа многие слова не распознаёт и получается таробарщина, теряется основной смысл всего текста, чтоб понять смысл нужно сидеть перед монитором и всё поправлять, отлучиться нельзя и на пять минут иначе ничего не будет понятно. Пробовал переводить в текст видеофайлы записаны в формате, VR_MOVIE.VRO программа такой файл даже не распознаёт. Начались танцы с бубном, а именно конвертировал сначала файл в формат mp4., программа файл распознала, но слова в текст не переводит, конвертировал в формат mp3, результат тот же.
Вывод в программе много минусов и не доработок, её нужно развивать и улучшать, для распознавания видео и аудио файлов, она не совсем подходит. Промучился с ней пол дня, за это время, я б на слух вручную у же набрал бы весь текст.
Плохо еще в Гугл работают!