Ввод аббревиатур голосом

В голосовой блокнот добавлена псевдокоманда для превращения следующей буквы в заглавную. В отличие от других команд, которые задаются в модуле задания команд кабинета пользователя, работа с псевдокомандами более похожа на работу со знаками препинания в модуле замены слов.

Созданная псевдокоманда имеет вид #1# и для ее использования в модуле замены слов (https://speechpad.ru/words.php) ей нужно присвоить заменяемое слово.

Присвоение псевдокоманды заменяемого слова

Первая строчка в списке на рисунке означает, что слово большая будет заменено на псевдокоманду, превращающую следующую букву в заглавную. Конечно, лучше придумать что-нибудь по замысловатей, так как заменеяемого слова мы в тексте не увидим (равно как и строки псевдокоманды).

Вторая строчка в этом списке используются для замены сочетаний вида: буква а на a, то есть сочетание буква + пробел заменяется на пустоту. Это связано с тем, что Гугл лучше распознает буквы в случае, если говорить буква а, чем проста a. Если посмотреть на ИД этих замен, то видно что сначала будет выполнена замена сочетания буква_, а потом псевдокоманда. В результате при произнесении фразы большая буква а мы получим А.

Предложенная псевдокоманда должна облегчить ввод аббревиатур и имен собственных, которые Гугл пока еше не всегда пишет с заглавной буквы.

Параметры в URL голосового блокнота

В голосовом блокноте есть несколько полезных параметров, которые можно использовать в строке запроса для его запуска. Вот неполный список их: vid=1 (компактный вид), autostart=1 (автостарт), chkbufer=1 (включен флаг вывод в буфер), pagelang (код языка голосового ввода), chkbeep=1 (установка флажка отключить звуки), chkinteg=1 (включение интеграции с Windows),chkcap=1 (отключение управление заглавными буквам Гугл).

Следующая ссылка запустит блокнот в компактном виде, с включенными флажком вывода в буфер обмена, а также включит сразу распознавание речи на выбранном языке (в данном случае русском). Для работы флажка вывода в буфре обмена должно быть предварительно установлено расширение Speechpad.

Для запуска в режиме интеграции можно воспользоваться URL вида https://speechpad.ru/?autostart=1&chkinteg=1&vid=1&chkcap=1. Последний параметр отключит управление заглавными буквами Гугл. Для работы интеграции должен быть активирован соответствующий модуль.

Ненулевые значения параметров, явно указанные в строке запроса, будут в данном случае иметь преимущества перед значениями по умолчанию и даже перед значениями, установленными пользователем. Для русского языка параметр pagelang можно и не указывать, так как он устанавливается по умолчанию.

После открытия в браузере любой из сконструированных ссылок, можно нажать в меню хрома пункты Дополнительные инструменты и добавить в панель задач. Ярлык добавиться в панель задач. Чтобы ярлык открывался в отдельном окне нужно изменить его свойства на вкладке сервисы или сразу указать это при создании (открыть в отдельном окне).

создание ярлыка приложения для speechpad

24.04.2024. Предыдущий параграф устарел. В последних версиях chrome для создания ярлыка нужно выбрать пункт меню Сохранить и поделиться, а затем в выпавшем меню Создать ярлык.

06.02.2016. Параметр chkauto — установка флажка возобновлять при ошибках, в настоящее время не используется, так как теперь флажок устанавливается по умолчанию.

Перевод аудио в текст без микрофона

Этот пост относится к переводу аудио в текст в модуле транскрибирования Speechpad.

Использование микшера

23.08.2014. Неожиданно обнаружил, что могу использовать для транскрибирования скрытые возможности в windows 7 и 8. Возможно это работает не всегда, но на двух моих компьютерах — старом нотбуке и новом моноблоке сработало. Последовательность действий следующая — открываем контрольную панель, затем выбираем звук и в ней вкладку записывающие устройства. Там нажимаем правую кнопку мыши и в появившемся контекстном меня выбираем — показать скрытые устройства.
показать миксер звука

Появится скрытый миксер звука. Делаем его доступным и затем устройстом записи по умолчанию.
сделать миксер устройстом записи по умолчанию

После этого напротив миксера появится столбик, означающий, что он используется для записи.
столбик рядом с миксером

И вроде все — можно приступать к переводу аудио в текст в модуле транскрибирования, при этом мы слышим звук из колонок и не нужно никаких повторителей.

Пользователь Виктор поделился опытом установки стерео микшера в случае если его нет в системе.

Использование виртуального кабеля

Нашел сегодня бесплатную замену программе Virtual audio cabel (VAC). Альтернатива почти свободно распространяется (там странная лицензия donationware) на сайте http://www.VB-CABLE.com.

Правда, предлагаемый там программа для повтора аудио у меня не заработала, но создать виртуальный кабель получилось и я смог распознать аудио без микрофона.

При переводе аудио с помощью программ, создающих виртуальный аудио кабель происходит неприятное явление — текст накапливается в поле предварительного просмотра и не попадает в результирующее поле. После порядка 5 минут распознавания программа отключается и высвечивается ошибка «error network». Так как ошибка находится вне кода блокнота, то просто исправить ее нельзя (правда можно обойти, например, выключением записи через некоторые промежутки времени).

От 07.11.13. Сделал принудительный перенос из предварительных результатов в результирующее поле при превышении длины текста 300 символов. Теперь проблема практически решена (17.12.2014 Теперь уже есть специальное Поле задания длины буфера фраз).

15.12.2013 Для сравнения привожу результаты транскрибирования mp3 2.5 минутного отрывка записи сказки Пушкина, скаченной с популярного сайта bibe.ru. Bite rate записи равнялся 128 kbps, колонки и микрофон самые обычные.

Результат перевода аудио с помощью колонок и микрофона
текст транскрибирования с помощью колонок

Результат перевода аудио с помощью программы VB-CABLE
текст транскрибирования с помощью виртуального кабеля

Настройка виртуального кабеля

1. Скачиваете виртуальный кабель, распаковываете его в папку и запускаете либо VBCABLE_Setup.exe, либо VBCABLE_Setup_x64.exe (в зависимости от разрядности вашей Windows)

2. Открываете окно управления записывающими устройствами и делаете CABLE Output устройством по умолчанию.
установка VB-CABLE, запись

3. Открываете окно управления устройствами воспроизведения и делаете CABLE Input устройством по умолчанию.
установка VB-CABLE, воспроизведение

4. Теперь можно приступать к транскрибированию. После этих манипуляций звук будет идти из выхода аудио на запись, микрофон при этом перестает работать. Чтобы вернуть его для работы нужно сделанные исменения откатить (вернуть все назад).

Использование физического кабеля

2.06.2014. Пользователь Владимир Гусев предложил использовать для транскрибирования кабель 3.5 jack- 3.5 jack. Один конец кабеля при этом вставляется в выход на колонки, а другой на вход для микрофона. Качество при этом методе получается близкое к качеству, полученному на vbcable, но нет неприятного эффекта накапливания текста в буфере предварительного просмотра. Для контроля звука он также предлагает использовать кабель с размножителем.

jack3.5 папа-папа
jack3.5 папа-мама

Транскрибирование аудио в Linux

Для Linux организация виртуального кабеля делается средствами самой операционной системы. По крайней мере мне в Ubuntu ничего устанавливать не пришлось. По-моему, я не использовал терминала даже, работал только через графическую оболочку.

Стерео микшер в Mac OS

Для организации стерео микшера в Mac OS можно использовать последнюю версию soundflower.

Ошибки голосового ввода

Коды ошибок от движка Гугл

Так как голосовой блокнот использует движок распознавания речи Google, то и ошибки, которые высвечиваются в поле уровень распознавания присылает Google через свои сервисы.

Наиболее частые ошибки: blocked, no speech, network error, audio capture error.

Error blocked получается, если при первом посещении сайта пользователь, увидя всплывающую панель с просьбой разрешить использовать микрофон, нажал на кнопку нет. Решение этой проблемы описано в этом комментарии.

Error no speech возникает, когда по какой-нибудь причине нет сигнала с микрофона. В этом случае рекомендуется проверить включен ли микрофон и достаточен ли уровень сигнала. Иногда эта ошибка вызывается просто длительной тишиной. Может оказаться, что используемый микрофон не подключен в браузере. Чтобы проверить какой микрофон подключен к браузеру нужно перейти на chrome://settings/content и прокрутить окошко до установок микрофона.

setting microphone in browser

Network error означает отсутствие интернет соединения и невозможность передать звук на серверы Google и получить оттуда текст. Эта же ошибка может быть вызвана накапливанием текста в предварительном буфере (видимо в этом случае по сети гоняется слишком много данных). Накопление в буфере может быть вызвано невнятной речью или использованием виртуального аудио кабеля при транскрибировании. Для борьбы с переполнением буфера, нужно либо улучшить дикцию, либо уменьшить его размер (настройка Длина буфера фраз).

Error audio capture означает, что движок распознавание речи Chrome не может обработать ваш голос. Это может быть связано с тем, что он уже обрабатывает чей-то запрос (голос), например, в другом окне. Существует и одна особенность в операционных системах XP, когда эта ошибка возникает при включенном индикаторе микрофона. Для решения этой проблемы можно перезагрузить Chrome.
Oшибка Error audio capture стала появляться в windows 10 при включении настройки: активация голосом. Отключите эту настройку. Кроме того эта ошибка возникает, если в Windows отсутствует разрешения у приложений на использование микрофона.

Language-not-supported по идее должна сигнализировать о неподдерживаемом языке голосового ввода. На практике возникает при попытке включить Speechpad в Яндекс Браузере.

Задержка при переносе

Текст из поля предварительного просмотра у меня не попадал в результирующее поле, хотя распознавание было вроде хорошее. После проверки свойств микрофона оказалось, что это было вызвано флажком Шумоподавление. После того как я его убрал ошибка исчезла.

флажок шумоподавление

Задержка переноса текста из поля предварительного просмотра в результирующее поле превышает 2-3 секунды. Такая задержка может быть вызвана неправильной настройкой микрофона, например, уровень записи очень мал. Проверить уровень записи можно средствами самого блокнота, включив индикатор уровня на странице настройки интерфейса.

Хотя в 95% процентов случаев задержка переноса текста вызывается двумя факторами: неправильным уровнем (слишком высоким или слишком низким) микрофона или использованием флага шумоподавления, в настоящее время в настройках интерфейса можно включить специальную настройку Пауза в речи.

Это настройка вызывает принудительный перенос в результирующее поле при отсутствия речи в течение заданного времени.

Пользоваться этой настройкой рекомендуется только если ничего другого не помогает. Для автоматической установки величины этой настройки в секундах при запуске можно использовать параметр URL chkdelay. Например, вызов блокнота https://speechpad.ru?chkdelay=2 автоматически установит время паузы в 2 секунды.

Ошибки из-за Adguard

Текст не выводится в поле предварительного просмотра, а появляется в результирующем поле только после остановки записи.

Эта ошибка вызвана работой блокировщика рекламы Adguard, который начиная с версии 6.2 мешает работе блокнота. Выходом из ситуации может быть отключение фильтрации Google в настройках Adguard.

Устранение неисправностей

  1. Прочесть внимательно, написанное выше. Возможно проблема описана уже.
  2. Проверить работу микрофона. Для диагностики можно воспользоватся сервисом перевода Google, имеющим голосовой ввод.
  3. Если ошибка остается — переустановить Chrome.
  4. Задать вопрос в этом блоге или написать письмо с описанием проблемы и вложить в него снимок экрана.

Проверка произношения — новый инструмент голосового блокнота

В голосовой блокнот добавлен новый инструмент online проверки произношения текста на иностранных языках. Инструмент использует движок распознавания речи от Google для проверки а анализа ошибок. Он также имеет встроенный аудио проигрыватель, что дает возможность использования в комплексе с различными аудио курсами по изучению иностранных языков.

Основные возможности Online проверки произношения в голосовом блокноте:

  • Прослушивание оригинала как с помощью аудио проигрывателя, так и с помощью перевода текст в речь.
  • Анализ ошибок с помощью распознавания речи и при помощи записи и воспроизведения аудио
  • Возможность задания изучаемого языка

Список языков для распознавания может быть расширен через стандартный интерфейс голосового блокнота по добавлению языков.

Буду рад вашим предложениям и замечаниям о работе нового инструмента.

03.12.2014 Дизайн инструмента изменен. Флажки Непрерывная запись и Показывать промежуточные результаты убраны, а соответствующие опции установлены по умолчанию.

17.11.2015. Добавлен режим сравнения содержимого поля Фраза для озвучиваня с распознанным текстом. После нажатия на кнопку Сравнить с озвучиваемой фразой получаем следующий резултьтат.

Режим сравнения фраз

Настройка интерфейса голосового блокнота

Зарегистрированные пользователи голосового блокнота могут подстраивать под себя видимость тех или иных элементов блокнота и их начальное состояние. В Speechpad имеется два основных вида: нормальный и компактный. В нормальном виде присутствует правая колонка с полями регистрации и меню, в компактном виде ее нет, кроме того по умолчанию многие элементы в компактном виде также скрыты, а поля ввода уменьшены. На странице настройки интерфейса нормальный вид имеет идентификатор 1, а компактный — 0. Видимость или начальная отметка для флажков идентифицируются 1, а скрытие или отключение — 0. Если настройки явно не заданы, то используются настройки по умолчанию для каждого вида.

страница настроек интерфейса голосового блокнота

Чтобы задать новую настройку нужно нажать на кнопку New и назначить необходимые значения видимости для выбранного элемента управления в выбранном виде блокнота, а затем нажать на кнопку Add.

выбор настройки видимости элемента в блокноте

p.s. Иногда пользователи пытаются добавить две настройки для одного и того же элемента в одном и том же виде. Система дает тогда малоинформативное сообщение Can not insert duplicate entry to the table can not runsql 2. Чтобы выйти из этой ситуации нужно просто удалить предыдущую настройку клавишей delete или изменить ее клавишей edit.

Голосовой ввод в буфер обмена

В блокнот добавлен новый функционал — прямой ввод в буфер обмена. При отмеченном флажке Вывод в буфер обмена текст из поля предварительного просмотра попадает не в результирующее поле, а в буфер обмена, откуда его можно вставить в любые документы командой Paste (вставка).
флажок вывода в буфер обмена
Такой режим может быть полезен для редактирования документов голосом. Окно блокнота при этом может находиться в минимизированном состоянии. Каждый перенос текста в буфер сопровождается звуковым сигналом.
Для работы функционала нужно обновить расширение голосового блокнота до версии 5.5.

p.s. Большое спасибо давнему пользователю голосового блокнота Арцуну Акопяну за креативные мысли по разработке данного функционала.

24.06.2014 В режиме работы с буфером обмена словосочетание «новая строка», произнесенное перед фразой, делает первую букву фразы заглавной.

Пунктуация голосом

В русской версии блокнота можно выговаривать знаки по русски и получать их в результирующем поле (во всплывающих подсказках к кнопкам пунктуации показаны эти ключевые слова). Если сменить язык, то эта схема работать уже не будет. Используя модуль замены слов в кабинете пользователя блокнота несложно написать свою версию для вашего языка.

Так для работы с новой строкой, запятой и точкой в немецком языка нужно заполнить следующие строчки:
пунктуация на немецком

Чтобы убрать пробелы, появляющиеся до знаков точка и запятая, нужно также добавить записи, заменяющие два знака пробел и знак (точка или запятая) на знак точка или запятая, как показано на рисунке. Записи нужно вводить после записей, заменяющих слова пунктуации.

Синхронный перевод с голоса

В блокнот добавлена возможность синхронно переводить речь на выбранный язык. Модуль перевода включается кнопкой + Перевод и основывается на API перевода Yandex. В настоящее время модуль проходит стадию тестирования, любые замечания и предложения приветствуются.

О выборе микрофона

Вопрос выбора микрофона достаточно часто возникает в ходе работе с голосовым блокнотом. Не являясь специалистом в этой области, я просто хочу поделиться некоторым опытом своей работы. Так как у меня никогда не было очень хорошего микрофона, то такие микрофоны я рассматривать не буду. Поэтому я рассмотрю три вида микрофона: стандартные — настольный компьютерный микрофон и микрофон с наушниками типа genius и динамический микрофон среднего качества. Цена первого варианта где-то в районе двухсот рублей, второй стоит где-то 500 рублей.

При использовании настольного микрофона во время диктовки мне приходилось его держать в руке к чему он не особенно приспособлен, хотя качество в целом меня устраивало. При транскрибировании аудио файлов в связке с дешевыми колонками он также давал положительные результаты. А вот транскрибировать файлы, используя колонки ноутбука у меня не получалось.

Микрофон вместе с наушниками для диктовки мне показался более удобным, так как руки у меня оставались свободными. Желательно, чтобы микрофон был закрыт в них специальным поролоном (такие наушники есть в продаже), это снижает помехи. При транскрибировании аудио файлов он правда немного неудобней.

Динамический микрофон я купил случайно и как оказалось к компьютеру он у меня не подключился (слабый уровень сигнала), зато подключился к ноутбуку. Качество у него хорошее и держать в руке его приятно.

Резюмируя сказанное: все три вида микрофона пригодны для работы с голосовым блокнотом.