Баг Google

22.01.2019 Начали появляться ошибки при голосовом вводе. Ошибки, например, проявляются при произнесении слова, потом точка, потом пауза. При этом добавляются буквы К. Проверка показала, что они также возникают в инструменте https://translate.google.com/, то есть связаны с изменениями алгоритма Google. Надеюсь, что ошибки будут вскоре исправлены.

28.02.2019. Для борьбы с багом добавлен флажок «Простой режим Google». Чтобы запустить блокнот и сразу включить этот флажок, можно использовать параметр chksimple=1. Например, https://speechpad.ru?chksimple=1.

Работа в Яндекс браузере

Обновлено 21.02.2019

Блокнот работает также под Яндекс браузером, во всяком случае для Windows и МасOS. То есть, если зайти на speechpad.ru под Яндекс браузером, то он автоматически переключится на распознавание речи от Яндекс.

Для обновления скрипта нажмите ctrl+f5 на странице https://speechpad.ru, так как старый скрипт иногда остается в кэше браузера.

Интеграция голосового блокнота с Mac OS

Возможности интеграции

Это статья для Mac OS, для Windows OS читайте интеграцию с Windows, а для Linux — интеграцию с Linux.

Интеграция голосового блокнота с Mac OS позволяет вводить текст голосом напрямую в приложениях Mac OS.

Установка интеграции с Mac OS

1. Устанавливаем браузер Google Chrome.
2. Устанавливаем расширение с магазина Google Chrome.

3. Скачиваем модуль интеграции для Mac. Распаковываем. Открываем папку в окне терминала, проверяем права на запуск у файла install_host.sh и запускаем его (можно просто открыть окно терминала и перетащить с помощью мыши на него файл install_host.sh из папки с модулем интеграции).

3.1. Для macOS Catalina и более поздних версий нужно выполнить команду в терминале внутри папки модуля интеграции xattr -d com.apple.quarantine ./ru-speechpad-host.out Так как эта OS по умолчанию не разрешает запуск приложений неустановленных издателей.

4. Регистрируемся в голосовом блокноте, вводим, полученный логин и пароль, нажимаем Войти.
Логинимся

5. Переходим в кабинет пользователя (ссылка появится) и
нажимаем там на кнопку Включить тестовый период.

6. Переходим вновь на https://speechpad.ru (закрываем остальные вкладки браузера с блокнотом, если они открыты), обновляем страницу, отмечаем флажок Интеграции с OS и нажимаем на кнопку Включить запись.

7. Открываем любое приложение, например Gedit, и диктуем в него. При первом использовании возникает всплывающее окно с требованием разрешить приложению Chrome управлять компьютером с помощью функций универсального доступа. Разрешаем это и продолжаем диктовку.

8. Если вам понравилось пользоваться модулем интеграции, то делаем заказ на включение его на выбранный вами срок.

Пример установки голосового ввода в Mac

Удаление модуля интеграции

Удалять модуль можно, если вы не хотите с ним работать больше.

1. Проверяем права на выполнение для файла uninstall_host.sh и запускаем этот файл в окне терминала.
2. Удаляем папку с модулем интеграции.

Работа с модулем интеграции

Возможности интеграции с Mac OS в целом схожи с возможностями интеграции с Windows. Для модуля интеграции с Mac OS не реализован голосовой ввод горячих клавиш.

История версий

04.01.2019 — первая версия

14.01.2019 — версия 1.1. Код переделан, улучшена стабильность.

09.11.2023 — версия 1.2. Поддерживается Mac Silicon и Intel. Поправлен баг.

Голосовой блокнот для iOS

Разработано приложение голосового блокнота для iOS. Приложение работает на устройствах iPhone и iPad и позволяет осуществлять непрерывный голосовой ввод и транскрибирование звуковых файлов. При транскрибировании есть возможность включать метки времени и переводить полученный вывод в формат субтитров для Youtube.

Блокировка домена google

Если по причине блокировки на компьютере не открывается сайт google.com, то голосовой блокнот не сможет работать и выдаст ошибку «error network». Надеюсь, что данная блокировка будет снята для адресов Google. Пока можно пользоваться https proxy, которые способны открывать адрес https://www.google.com. Подробнее можно посмотреть в группе vk.com/speechpad

Голосовой блокнот для Андроид

Разработано приложение голосового ввода для устройств на Андроид. Оно позволяет создавать голосом заметки и сохранять их, использовать определяемый список замен для пунктуации и специальных слов, имеет команду отмены и другие полезные функции.

Инструмент вывода речи из звукового потока

Разработана новая утилита для вывода текста из аудио в реальном времени (авто субтитры). Инструмент позволяет в реальном времени выводить текст на экран из звукового потока, который создается либо с помощью микрофона, либо берется из проигрываемого аудио или видео с помощью виртуального кабеля или стерео микшера.

В целом настройки инструмента достаточно очевидны.
настройки инструмента вывода речи из звукового потока
Переключатель Длина буфера фраз ограничивает максимальную длину распознаваемого куска текста и в большинстве случаев может быть установлен в максимальное значение — 300. Переключатель Защита от шумов не дает зависать распознаванию при наличии шумов в воспроизводимом аудио. При использовании микрофона он должен быть отключен.

Если вы не нашли нужного языка в списке Выбор языка для распознавания, то зарегистрируйтесь на сайте и добавьте нужный язык.

Диктант для проверки прозношения на иностранном языке

На сайт голосового блокнота добавлен новый инструмент — тест проверки произношения при чтении на иностранном языке.
Инструмент позовляет получить количественные оценки ошибок произношения при чтении.

Скопировать тексты для проверки можно из любого доступного источника, например, тексты для чтения на английском языке.

Интеграция голосового блокнота с Linux (Ubuntu и др.)

Возможности интеграции

Эта статья об интеграции с Linux, смотри соответсвенно интеграцию с Windows и интеграцию с Mac.

Интеграция голосового блокнота с Linux позволяет вводить текст голосом напрямую в приложениях Linux.

Установка интеграции с Linux

1. Устанавливаем браузер Google Chrome.
2. Устанавливаем расширение с магазина Google Chrome.

3. Скачиваем модуль интеграции в зависимости от разрядности Linux: модуль для 32 разрядной от 07.11.2016, модуль для 64 разрядной от 07.11.2016. Распаковываем, открываем папку в окне терминала, проверяем права на запуск у файла bash скрипта install_host.sh и запускаем его (не нужно при этом использовать sudo, то есть запуск должен быть от пользователя).

4. Регистрируемся в голосовом блокноте, вводим, полученный логин и пароль, нажимаем Войти.
Логинимся

5. Переходим в кабинет пользователя (ссылка появится) и
нажимаем там на кнопку Включить тестовый период.

6. Переходим вновь на https://speechpad.ru (закрывает остальные вкладки браузера с блокнотом, если они открыты), обновляем страницу, отмечаем флажок Интеграции с OS и нажимаем на кнопку Включить запись.

7. Открываем любое приложение, например Gedit, и диктуем в него.

8. Если вам понравилось пользоваться модулем интеграции, то делаем заказ на включение его на выбранный вами срок.

Пример установки голосового ввода в Ubuntu

Удаление модуля интеграции

Удалять модуль можно, если вы не хотите с ним работать больше.

1. Проверяем права на выполнение для файла uninstall_host.sh и запускаем этот файл в окне терминала.
2. Удаляем папку с модулем интеграции.

Работа с модулем интеграции

Возможности интеграции с Linux в целом схожи с возможностями интеграции с Windows, но в Linux голосовой ввод зависит он установок клавиатуры и возможен только при активации соответствующей раскладки. То есть, если вы вводите текст на русском, то должна быть активна русская раскладка. Кроме того для большинства Linux этот язык должен быть установленный по умолчанию в системе (первым в списке раскладок клавиатуры), хотя для Ubuntu это необязательно.

Для модуля интеграции с Linux не реализован голосовой ввод горячих клавиш.

История версий

13.06.2016 — первая версия

05.11.2016 — исправлена грубая ошибка

07.11.2016 — Поправлена обработка знаков пунктуации и цифр.

Новый инструмент для озвучивания субтитров

Инструменты для озвучивания видео и текста

На сайт голосового блокнота добавлены два инструмента SRT Speaker и TTS Picker, которые могут быть полезны для озвучивания видео с помощью технологии перевода текста в речь.

SRT Speaker

Новый инструмент SRT Speaker, позволяет озвучивать файлы в формате SRT (SubRip). В инструменте предусмотрена возможность отладки, позволяющая подогнать фразы под нужную длину для выбранного голоса.

Утилиту можно использовать совместно с модулем транскрибации SpeechPad для создания видео на иностранном языке. Например, можно записать видео на русском, затем транскрибировать его. Полученный текст перевести на иностранный язык и отладить в этой утилите.

Получаемый звук записывается в файл с помощью виртуального аудио кабеля и любой записывающей программы, например, Audacity. Затем с помощью видеоредактора, например Virtualdub, в исходном видео заменяется звуковая дорожка.

Для примера, можно посмотреть следующее видео, которое создано по этой технологии.

TTS Picker

Приложение Chrome TTS Picker позволяет выбирать текст из списка и озвучивать его выбранным голосом.
утилита TTS Picker

Кнопкам можно назначить горячие клавиши на странице chrome://extensions/.

Языки для голосового ввода

В кабинете пользователя для голосового блокнота можно добавлять свои языки для голосового ввода — страница «Языки ввода». Коды языков должны соответствовать стандартам bc47. Так, для русского языка этот код будет — ru-RU. Регистр букв имеет значение в голосовом блокноте, поэтому писать нужно точно как показано.
Добавление языка голосового ввода

Чтобы другие предустановленные языки не мешали, их можно убрать из списка выбора, нажав на кнопку Убрать предустановленные языки. В этом случае останутся только те языки, которые вы добавили, первый из них будет установлен в качестве текущего при старте блокнота.

Для смены языков в этом отобранном списке могут использоваться голосовые команды Смена языка 1 и Смена языка 2. То есть, если мы установили два языка английский и русский, то для первой команды мы выбираем русское слово, для второй команды — английское слово. Выполнение любой из этих команд приводит к переходу к следующему языку в списке, после последнего снова к первому. Если требуемое количество языков более двух, то можно использовать число, например 125, для команды активации смены языка. Это произнесенное число на любом языке будет активировать команду смены языка.

Голосовой блокнот можно запустить с выбранным языком, который либо есть по умолчанию, либо добавлен пользователем. В последнем случае пользователь не должен явно выходить из блокнота при закрытии. Выбираемый язык добавляется в строку URL. Так, по следующей ссылки будет запущен блокнот с выбранным немецким языком — https://speechpad.ru?pagelang=de-DE.

В раскрывающемся списке языков расширения SpeechPad установлены следущие языки: (имеет смысл пользоваться этими кодами при добавлении своих языков)

af-ZA          Afrikaans    
id-ID          Bahasa Indonesia    
ms-MY          Bahasa Melayu    
ca-ES          Català    
cs-CZ          Čeština    
da-DK          Dansk    
de-DE          Deutsch    
en-GB          English (United Kingdom)    
en-US          English (United States)    
es-ES          Español (España)    
es-419          Español (Latinoamérica)    
eu-ES          Euskara    
fil-PH          Filipino    
fr-FR          Français    
gl-ES          Galego    
hr-HR          hrvatski    
zu-ZA          IsiZulu    
is-IS          Íslenska    
it-IT          italiano    
lt-LT          Lietuvių    
hu-HU          Magyar    
nl-NL          Nederlands    
nb-NO          Norsk (Bokmål)    
pl-PL          Polski    
pt-BR          Português (Brasil)    
pt-PT          Português (Portugal)    
ro-RO          Română    
sl-SI          Slovenščina    
sk-SK          Slovenčina    
fi-FI          Suomi    
sv-SE          Svenska    
vi-VN          Tiếng Việt    
tr-TR          Türkçe    
el-GR          Ελληνικά    
bg-BG          български    
ru-RU          Pусский    
sr-RS          Српски    
uk-UA          Українська    
he-IL          עברית    
ar-x-gulf      العربية     
fa-IR          فارسی     
hi-IN          हिन्दी     
th-TH          ไทย     
cmn-Hans-CN    中文(中国)    
cmn-Hant-TW    中文(台灣)    
yue-Hant-HK    中文(香港)    
ja-JP          日本語    
ko-KR          한국어    

09.08.2016. Следующие коды использует Google Cloud Speech API, думаю что можно ими пользоваться тоже (23.08.2017 проверьте обновление списка на Google Cloud. Там добавлено 30 новых языков, в том числе: Армянский, Грузинский, Азербайджанский, Латышский).

Language language_code Language (English name)
Afrikaans (Suid-Afrika) af-ZA Afrikaans (South Africa)
Bahasa Indonesia (Indonesia) id-ID Indonesian (Indonesia)
Bahasa Melayu (Malaysia) ms-MY Malay (Malaysia)
Català (Espanya) ca-ES Catalan (Spain)
Čeština (Česká republika) cs-CZ Czech (Czech Republic)
Dansk (Danmark) da-DK Danish (Denmark)
Deutsch (Deutschland) de-DE German (Germany)
English (Australia) en-AU English (Australia)
English (Canada) en-CA English (Canada)
English (Great Britain) en-GB English (United Kingdom)
English (India) en-IN English (India)
English (Ireland) en-IE English (Ireland)
English (New Zealand) en-NZ English (New Zealand)
English (Philippines) en-PH English (Philippines)
English (South Africa) en-ZA English (South Africa)
English (United States) en-US English (United States)
Español (Argentina) es-AR Spanish (Argentina)
Español (Bolivia) es-BO Spanish (Bolivia)
Español (Chile) es-CL Spanish (Chile)
Español (Colombia) es-CO Spanish (Colombia)
Español (Costa Rica) es-CR Spanish (Costa Rica)
Español (Ecuador) es-EC Spanish (Ecuador)
Español (El Salvador) es-SV Spanish (El Salvador)
Español (España) es-ES Spanish (Spain)
Español (Estados Unidos) es-US Spanish (United States)
Español (Guatemala) es-GT Spanish (Guatemala)
Español (Honduras) es-HN Spanish (Honduras)
Español (México) es-MX Spanish (Mexico)
Español (Nicaragua) es-NI Spanish (Nicaragua)
Español (Panamá) es-PA Spanish (Panama)
Español (Paraguay) es-PY Spanish (Paraguay)
Español (Perú) es-PE Spanish (Peru)
Español (Puerto Rico) es-PR Spanish (Puerto Rico)
Español (República Dominicana) es-DO Spanish (Dominican Republic)
Español (Uruguay) es-UY Spanish (Uruguay)
Español (Venezuela) es-VE Spanish (Venezuela)
Euskara (Espainia) eu-ES Basque (Spain)
Filipino (Pilipinas) fil-PH Filipino (Philippines)
Français (France) fr-FR French (France)
Galego (España) gl-ES Galician (Spain)
Hrvatski (Hrvatska) hr-HR Croatian (Croatia)
IsiZulu (Ningizimu Afrika) zu-ZA Zulu (South Africa)
Íslenska (Ísland) is-IS Icelandic (Iceland)
Italiano (Italia) it-IT Italian (Italy)
Lietuvių (Lietuva) lt-LT Lithuanian (Lithuania)
Magyar (Magyarország) hu-HU Hungarian (Hungary)
Nederlands (Nederland) nl-NL Dutch (Netherlands)
Norsk bokmål (Norge) nb-NO Norwegian Bokmål (Norway)
Polski (Polska) pl-PL Polish (Poland)
Português (Brasil) pt-BR Portuguese (Brazil)
Português (Portugal) pt-PT Portuguese (Portugal)
Română (România) ro-RO Romanian (Romania)
Slovenčina (Slovensko) sk-SK Slovak (Slovakia)
Slovenščina (Slovenija) sl-SI Slovenian (Slovenia)
Suomi (Suomi) fi-FI Finnish (Finland)
Svenska (Sverige) sv-SE Swedish (Sweden)
Tiếng Việt (Việt Nam) vi-VN Vietnamese (Vietnam)
Türkçe (Türkiye) tr-TR Turkish (Turkey)
Ελληνικά (Ελλάδα) el-GR Greek (Greece)
Български (България) bg-BG Bulgarian (Bulgaria)
Русский (Россия) ru-RU Russian (Russia)
Српски (Србија) sr-RS Serbian (Serbia)
Українська (Україна) uk-UA Ukrainian (Ukraine)
עברית (ישראל) he-IL Hebrew (Israel)
العربية (إسرائيل) ar-IL Arabic (Israel)
العربية (الأردن) ar-JO Arabic (Jordan)
العربية (الإمارات) ar-AE Arabic (United Arab Emirates)
العربية (البحرين) ar-BH Arabic (Bahrain)
العربية (الجزائر) ar-DZ Arabic (Algeria)
العربية (السعودية) ar-SA Arabic (Saudi Arabia)
العربية (العراق) ar-IQ Arabic (Iraq)
العربية (الكويت) ar-KW Arabic (Kuwait)
العربية (المغرب) ar-MA Arabic (Morocco)
العربية (تونس) ar-TN Arabic (Tunisia)
العربية (عُمان) ar-OM Arabic (Oman)
العربية (فلسطين) ar-PS Arabic (State of Palestine)
العربية (قطر) ar-QA Arabic (Qatar)
العربية (لبنان) ar-LB Arabic (Lebanon)
العربية (مصر) ar-EG Arabic (Egypt)
فارسی (ایران) fa-IR Persian (Iran)
हिन्दी (भारत) hi-IN Hindi (India)
ไทย (ประเทศไทย) th-TH Thai (Thailand)
한국어 (대한민국) ko-KR Korean (South Korea)
國語 (台灣) cmn-Hant-TW Chinese, Mandarin (Traditional, Taiwan)
廣東話 (香港) yue-Hant-HK Chinese, Cantonese (Traditional, Hong Kong)
日本語(日本) ja-JP Japanese (Japan)
普通話 (香港) cmn-Hans-HK Chinese, Mandarin (Simplified, Hong Kong)
普通话 (中国大陆) cmn-Hans-CN Chinese, Mandarin (Simplified, China)