Разработана новая утилита для вывода текста из аудио в реальном времени (авто субтитры). Инструмент позволяет в реальном времени выводить текст на экран из звукового потока, который создается либо с помощью микрофона, либо берется из проигрываемого аудио или видео с помощью виртуального кабеля или стерео микшера.
В целом настройки инструмента достаточно очевидны.
Переключатель Длина буфера фраз ограничивает максимальную длину распознаваемого куска текста и в большинстве случаев может быть установлен в максимальное значение — 300. Переключатель Защита от шумов не дает зависать распознаванию при наличии шумов в воспроизводимом аудио. При использовании микрофона он должен быть отключен.
Если вы не нашли нужного языка в списке Выбор языка для распознавания, то зарегистрируйтесь на сайте и добавьте нужный язык.
как сделать этот стерео микшер? Или как сделать так чтобы был слышен звук через виртуальный кабель?
Стерео микшер для одних карт есть, а для других нет (там какая-то лицензионная ерунда). Я не знаю что надо делать, сам бы купил, наверное, звуковую карту (но у меня в одном компютере есть).
Проблема решена. Лучше всего не качать виртуальный кабель, а скачать драйвер RealTek High Definition Audio Codecs после чего появится стерео микшер
И что прям в записывающий устройствах стерео микшер появиться? (Я то вообще с ним игрался и у меня ничего не получилось)
Да, у меня появился, до этого не было
У меня тоже микшер не появился после установки RealTek Codecs. Windows 7.
Виртуальный кабель встал нормально и появилась возможность перенаправлять потоки.
Работает! MacOS, использовал soundflower.
А для чего вы используете сейчас инструмент, да еще на маке?
Пробую режим вывода в буфер обмена.
Скажешь что-нибудь, а потом очень долго нужно ждать, чтобы пикнуло. Где-то у вас тут на форуме прочитал, что дело в микрофоне. Это может быть, я говорю на микрофон ноутбука и, конечно, шумов вокруг предостаточно. Нельзя ли как-то запрограммировать команду, по которой бы всё, что наговорено, переносилось бы в буфер принудительно.
Было бы классно придумать какую-нибудь кнопку, как на рации (например правый Ctrl), чтобы распознавание происходило только при этой нажатой кнопке. Нажал, сказал, отпустил кнопку — и сказанное в буфере обмена. Чтобы на трафике экономить. Окно поверх всех окон это здорово, но место всё-таки съедает.
Попробуйте внешний микрофон, микрофон ноутбука вообще говоря не подходит.
Да я это понимаю, но всё-таки. Нельзя ли сделать голосовую команду для принудительного копирования распознанного в буфер обмена?
Флажок вывода в буфер обмена означает мгновенный вывод в буфер обмена после распознавания. Задержка не должна превышать 2 секунд. Если она больше, то это означает, что у вас не настроен микрофон (уровень, мал или наоборот велик), либо стоит флажок шумоподавления в настройках звуковой карты, либо очень плохой интернет, либо очень много шумов. В любом случае сначала нужно исправить ситуацию на вашей стороне.
О, спасибо! Действительно, стояло подавление шума, убрал и всё стало хорошо. Там же в настройках есть «удаление постоянной составляющей». Это как-то ухудшает/улучшает работу?
нет, оставьте все остальное как есть
Win 8.1
Обнаружил следующее:
1) Включаем запись в голосовом блокноте, всё идёт нормально.
2) Выключаем микрофон через свойства звука. Блокнот ничего не слышит.
3) Включаем микрофон через свойства звука. Блокнот по прежнему ничего не слышит.
4) Отключаем запись в блокноте и включаем заново. Блокнот снова всё слышит.
Тоже самое происходит при переключении на другое устройство записи, т.е. чтобы блокнот услышал новое устройство, блокнот нужно перезапускать.
Можно ли как-то исправить эту особенность?
Андрей это к блокноту относится или к субтитрам в реальном времени? А для чего это нужно сначала микрофон отключать, а потом включать в настройках?
Это относится к блокноту вообще.
Отключать/включать микрофон можно же не только в настройках, а и программно. Тут не столько отключение/включение волнует, сколько умирание блокнота при переключении на другое устройство. Например, при подключении внешней гарнитуры с USB-свистком. Не проверял, но думаю, что и с блютуз-гарнитурами тоже самое будет.
Как бы ничего страшного, но вот есть такое. Если не очень сложно отлавливать сообщение системы о переходе на другой источник звука, то было бы здорово.
Зависание скорей всего происходит в коде Гугла, иначе бы блокнот перезагружался
А что, разве микрофон инициализирует код гугла? А как же тогда команды включить/отключить запись, их тоже код гугла отрабатывает? Тогда да. Я подумал, что не только интерфейс, а вся оболочка, кроме непосредственно распознавания, ваша.
Просто скорей всего программе не сообщается, что завис микрофон.
Добрый день! поставил и микшер и виртуальный кабель. Не распознает ни с того ни с другого. Через наушники все ок. Не знаю куда и смотреть. Настроек в этих устройствах не так много. Пытался отключать и включать их. Результата нет. Может есть какая-нибудь светлая мысл у кого-нибудь?
И еще вопрос. Есть необходимость транскрибирования разговора в режиме чата. Т.е. я говорю через микрофон, а пользователь отвечает мне. возможно ли подобное использование или необходимо постоянно отключать и включать устройства записи
спасибо!
не могу скачать виртуальный кабель. пишет неудаеться получить доступ к сайту
Только что скачал — https://www.vb-audio.com/Cable/index.htm
У меня микшер не появился после установки RealTek Codecs. Windows 10.
Микшер либо есть для этой карты, либо его нет. Сменой драйвера обычно ничего не получается.
Здравствуйте! Подскажите, пожалуйста, почему может блокнот в режиме отключенного стерео микшера всё равно слышать и писать голос с аудиозаписи?
Вот я отключила стерео микшер и записываю своим голосом через микрофон с наушников, всё нормально пишет, но как только я делаю паузу, а аудио продолжает звучать, он сам пишет то, что слышно на аудиозаписи. А мне, к примеру, нужно вернуться немного назад, и блок пишет сам то, что у меня уже написано, приходится вытирать. Но если сделать, звук тихий, то блокнот не распознаёт аудиозапись и тогда проблемы нет. А ведь удобнее писать с громким звуком, чтобы не заглушать своим голосом аудиозапись и потом не перематывать каждый раз, это очень тормозит работу.
Если знаете, как можно решить эту проблему, пожалуйста, помогите.
Вообще говоря это вопросы не к блокноту. Пришлите скриншоты как сказано в https://speechpad.ru/blog/audio-transcribing/#support
на info@speechpad.ru . Может отключаете как-то не так.
Что-то теперь стал рекогнайзер речи сам отключается после истечения определенного времени. За несколько лет работы, впервые такое вижу у вас. Обычно всегда включенный, пока я не отключу. Буквально с сегодняшнего дня такое.
Скорей всего у вас какая-то ошибка — пришлите скриншот на info@speechpad.ru когда он отключается и чтобы поле уровень распознавания было видно
А можете, пожалуйста, добавить японский язык в автоматические субтитры?
Зарегистрируйтесь на сайте https://speechpad.ru/regcab.php, зайдите в кабинет пользователя (оранжевая ссылка), затем нажмите на ссылку Языки ввода. Добавьте там японский язык — его код: ja-JP После этого он появится в автоматических субтитрах/
Прошу прощения. Да, я не заметил, что можно добавить и множество других языков, в том числе японский в личном кабинете.