Инструмент вывода речи из звукового потока

Разработана новая утилита для вывода текста из аудио в реальном времени (авто субтитры). Инструмент позволяет в реальном времени выводить текст на экран из звукового потока, который создается либо с помощью микрофона, либо берется из проигрываемого аудио или видео с помощью виртуального кабеля или стерео микшера.

В целом настройки инструмента достаточно очевидны.
настройки инструмента вывода речи из звукового потока
Переключатель Длина буфера фраз ограничивает максимальную длину распознаваемого куска текста и в большинстве случаев может быть установлен в максимальное значение — 300. Переключатель Защита от шумов не дает зависать распознаванию при наличии шумов в воспроизводимом аудио. При использовании микрофона он должен быть отключен.

Если вы не нашли нужного языка в списке Выбор языка для распознавания, то зарегистрируйтесь на сайте и добавьте нужный язык.

Диктант для проверки прозношения на иностранном языке

На сайт голосового блокнота добавлен новый инструмент — тест проверки произношения при чтении на иностранном языке.
Инструмент позовляет получить количественные оценки ошибок произношения при чтении.

Скопировать тексты для проверки можно из любого доступного источника, например, тексты для чтения на английском языке.

Интеграция голосового блокнота с Linux (Ubuntu и др.)

Возможности интеграции

Это статья для Linux OS, для Windows OS читайте здесь.

Интеграция голосового блокнота с Linux позволяет вводить текст голосом напрямую в приложениях Linux.

Установка интеграции с Linux

1. Устанавливаем браузер Chromium или Google Chrome.
2. Устанавливаем расширение с магазина Google Chrome.

3. Скачиваем модуль интеграции в зависимости от разрядности Linux: модуль для 32 разрядной от 07.11.2016, модуль для 64 разрядной от 07.11.2016. Распаковываем, открываем папку в окне терминала, проверяем права на запуск у файла install_host.sh и запускаем его.

4. Регистрируемся в голосовом блокноте, вводим, полученный логин и пароль, нажимаем Войти.
Логинимся

5. Переходим в кабинет пользователя (ссылка появится) и
нажимаем там на кнопку Включить тестовый период.

6. Переходим вновь на https://speechpad.ru отмечаем флажок Интеграции с OS и нажимаем на кнопку Включить запись.

7. Открываем любое приложение, например Gedit, и диктуем в него.

8. Если вам понравилось пользоваться модулем интеграции, то делаем заказ на включение его на выбранный вами срок.

Пример установки голосового ввода в Ubuntu

Удаление модуля интеграции

Удалять модуль можно, если вы не хотите с ним работать больше.

1. Проверяем права на выполнение для файла uninstall_host.sh и запускаем этот файл в окне терминала.
2. Удаляем папку с модулем интеграции.

Работа с модулем интеграции

Возможности интеграции с Linux в целом схожи с возможностями интеграции с Windows, но в Linux голосовой ввод зависит он установок клавиатуры и возможен только при активации соответствующей раскладки. То есть, если вы вводите текст на русском, то должна быть активна русская раскладка. Кроме того для большинства Linux этот язык должен быть установленный по умолчанию в системе (первым в списке раскладок клавиатуры), хотя для Ubuntu это необязательно.

Для модуля интеграции с Linux не реализован голосовой ввод горячих клавиш.

История версий

13.06.2016 — первая версия

05.11.2016 — исправлена грубая ошибка

07.11.2016 — Поправлена обработка знаков пунктуации и цифр.

Новый инструмент для озвучивания субтитров

Инструменты для озвучивания видео и текста

На сайт голосового блокнота добавлены два инструмента SRT Speaker и TTS Picker, которые могут быть полезны для озвучивания видео с помощью технологии перевода текста в речь.

SRT Speaker

Новый инструмент SRT Speaker, позволяет озвучивать файлы в формате SRT (SubRip). В инструменте предусмотрена возможность отладки, позволяющая подогнать фразы под нужную длину для выбранного голоса.

Утилиту можно использовать совместно с модулем транскрибации SpeechPad для создания видео на иностранном языке. Например, можно записать видео на русском, затем транскрибировать его. Полученный текст перевести на иностранный язык и отладить в этой утилите.

Получаемый звук записывается в файл с помощью виртуального аудио кабеля и любой записывающей программы, например, Audacity. Затем с помощью видеоредактора, например Virtualdub, в исходном видео заменяется звуковая дорожка.

Для примера, можно посмотреть следующее видео, которое создано по этой технологии.

TTS Picker

Приложение Chrome TTS Picker позволяет выбирать текст из списка и озвучивать его выбранным голосом.
утилита TTS Picker

Кнопкам можно назначить горячие клавиши на странице chrome://extensions/.

Языки для голосового ввода

В кабинете пользователя для голосового блокнота можно добавлять свои языки для голосового ввода — страница «Языки ввода». Коды языков должны соответствовать стандартам bc47. Так, для русского языка этот код будет — ru-RU. Регистр букв имеет значение в голосовом блокноте, поэтому писать нужно точно как показано.
Добавление языка голосового ввода

Чтобы другие предустановленные языки не мешали, их можно убрать из списка выбора, нажав на кнопку Убрать предустановленные языки. В этом случае останутся только те языки, которые вы добавили, первый из них будет установлен в качестве текущего при старте блокнота.

Для смены языков могут использоваться голосовые команды Смена языка 1 и Смена языка 2. То есть, если мы установили два языка английский и русский, то для первой команды мы выбираем русское слово, для второй команды — английское слово. Выполнение любой из этих команд приводит к переходу к следующему языку в списке, после последнего снова к первому.

Голосовой блокнот можно запустить с выбранным языком, который либо есть по умолчанию, либо добавлен пользователем. В последнем случае пользователь не должен явно выходить из блокнота при закрытии. Выбираемый язык добавляется в строку URL. Так, по следующей ссылки будет запущен блокнот с выбранным немецким языком — https://speechpad.ru?pagelang=de-DE.

В раскрывающемся списке языков расширения SpeechPad установлены следущие языки: (имеет смысл пользоваться этими кодами при добавлении своих языков)

af-ZA          Afrikaans    
id-ID          Bahasa Indonesia    
ms-MY          Bahasa Melayu    
ca-ES          Català    
cs-CZ          Čeština    
da-DK          Dansk    
de-DE          Deutsch    
en-GB          English (United Kingdom)    
en-US          English (United States)    
es-ES          Español (España)    
es-419          Español (Latinoamérica)    
eu-ES          Euskara    
fil-PH          Filipino    
fr-FR          Français    
gl-ES          Galego    
hr-HR          hrvatski    
zu-ZA          IsiZulu    
is-IS          Íslenska    
it-IT          italiano    
lt-LT          Lietuvių    
hu-HU          Magyar    
nl-NL          Nederlands    
nb-NO          Norsk (Bokmål)    
pl-PL          Polski    
pt-BR          Português (Brasil)    
pt-PT          Português (Portugal)    
ro-RO          Română    
sk-SK          Slovenščina    
sl-SI          Slovenčina    
fi-FI          Suomi    
sv-SE          Svenska    
vi-VN          Tiếng Việt    
tr-TR          Türkçe    
el-GR          Ελληνικά    
bg-BG          български    
ru-RU          Pусский    
sr-RS          Српски    
uk-UA          Українська    
he-IL          עברית    
ar-x-gulf      العربية     
fa-IR          فارسی     
hi-IN          हिन्दी     
th-TH          ไทย     
cmn-Hans-CN    中文(中国)    
cmn-Hant-TW    中文(台灣)    
yue-Hant-HK    中文(香港)    
ja-JP          日本語    
ko-KR          한국어    

Также можно воспользоваься представленной выдержкой из кода демонстрационной версии голосового ввода от google. Коды языков представлены во второй колонке, например, af-ZA. Видно что здесь присутствуют не все языки, для которых работает голосовой ввод, так здесь нет украинского.

[['Afrikaans',       ['af-ZA']],
 ['Bahasa Indonesia',['id-ID']],
 ['Bahasa Melayu',   ['ms-MY']],
 ['Català',          ['ca-ES']],
 ['Čeština',         ['cs-CZ']],
 ['Deutsch',         ['de-DE']],
 ['English',         ['en-AU', 'Australia'],
                     ['en-CA', 'Canada'],
                     ['en-IN', 'India'],
                     ['en-NZ', 'New Zealand'],
                     ['en-ZA', 'South Africa'],
                     ['en-GB', 'United Kingdom'],
                     ['en-US', 'United States']],
 ['Español',         ['es-AR', 'Argentina'],
                     ['es-BO', 'Bolivia'],
                     ['es-CL', 'Chile'],
                     ['es-CO', 'Colombia'],
                     ['es-CR', 'Costa Rica'],
                     ['es-EC', 'Ecuador'],
                     ['es-SV', 'El Salvador'],
                     ['es-ES', 'España'],
                     ['es-US', 'Estados Unidos'],
                     ['es-GT', 'Guatemala'],
                     ['es-HN', 'Honduras'],
                     ['es-MX', 'México'],
                     ['es-NI', 'Nicaragua'],
                     ['es-PA', 'Panamá'],
                     ['es-PY', 'Paraguay'],
                     ['es-PE', 'Perú'],
                     ['es-PR', 'Puerto Rico'],
                     ['es-DO', 'República Dominicana'],
                     ['es-UY', 'Uruguay'],
                     ['es-VE', 'Venezuela']],
 ['Euskara',         ['eu-ES']],
 ['Français',        ['fr-FR']],
 ['Galego',          ['gl-ES']],
 ['Hrvatski',        ['hr-HR']],
 ['IsiZulu',         ['zu-ZA']],
 ['Íslenska',        ['is-IS']],
 ['Italiano',        ['it-IT', 'Italia'],
                     ['it-CH', 'Svizzera']],
 ['Magyar',          ['hu-HU']],
 ['Nederlands',      ['nl-NL']],
 ['Norsk bokmål',    ['nb-NO']],
 ['Polski',          ['pl-PL']],
 ['Português',       ['pt-BR', 'Brasil'],
                     ['pt-PT', 'Portugal']],
 ['Română',          ['ro-RO']],
 ['Slovenčina',      ['sk-SK']],
 ['Suomi',           ['fi-FI']],
 ['Svenska',         ['sv-SE']],
 ['Türkçe',          ['tr-TR']],
 ['български',       ['bg-BG']],
 ['Pусский',         ['ru-RU']],
 ['Српски',          ['sr-RS']],
 ['한국어',            ['ko-KR']],
 ['中文',             ['cmn-Hans-CN', '普通话 (中国大陆)'],
                     ['cmn-Hans-HK', '普通话 (香港)'],
                     ['cmn-Hant-TW', '中文 (台灣)'],
                     ['yue-Hant-HK', '粵語 (香港)']],
 ['日本語',           ['ja-JP']],
 ['Lingua latīna',   ['la']]];

09.08.2016. Следующие коды использует Google Cloud Speech API, думаю что можно ими пользоваться тоже.

Language language_code Language (English name)
Afrikaans (Suid-Afrika) af-ZA Afrikaans (South Africa)
Bahasa Indonesia (Indonesia) id-ID Indonesian (Indonesia)
Bahasa Melayu (Malaysia) ms-MY Malay (Malaysia)
Català (Espanya) ca-ES Catalan (Spain)
Čeština (Česká republika) cs-CZ Czech (Czech Republic)
Dansk (Danmark) da-DK Danish (Denmark)
Deutsch (Deutschland) de-DE German (Germany)
English (Australia) en-AU English (Australia)
English (Canada) en-CA English (Canada)
English (Great Britain) en-GB English (United Kingdom)
English (India) en-IN English (India)
English (Ireland) en-IE English (Ireland)
English (New Zealand) en-NZ English (New Zealand)
English (Philippines) en-PH English (Philippines)
English (South Africa) en-ZA English (South Africa)
English (United States) en-US English (United States)
Español (Argentina) es-AR Spanish (Argentina)
Español (Bolivia) es-BO Spanish (Bolivia)
Español (Chile) es-CL Spanish (Chile)
Español (Colombia) es-CO Spanish (Colombia)
Español (Costa Rica) es-CR Spanish (Costa Rica)
Español (Ecuador) es-EC Spanish (Ecuador)
Español (El Salvador) es-SV Spanish (El Salvador)
Español (España) es-ES Spanish (Spain)
Español (Estados Unidos) es-US Spanish (United States)
Español (Guatemala) es-GT Spanish (Guatemala)
Español (Honduras) es-HN Spanish (Honduras)
Español (México) es-MX Spanish (Mexico)
Español (Nicaragua) es-NI Spanish (Nicaragua)
Español (Panamá) es-PA Spanish (Panama)
Español (Paraguay) es-PY Spanish (Paraguay)
Español (Perú) es-PE Spanish (Peru)
Español (Puerto Rico) es-PR Spanish (Puerto Rico)
Español (República Dominicana) es-DO Spanish (Dominican Republic)
Español (Uruguay) es-UY Spanish (Uruguay)
Español (Venezuela) es-VE Spanish (Venezuela)
Euskara (Espainia) eu-ES Basque (Spain)
Filipino (Pilipinas) fil-PH Filipino (Philippines)
Français (France) fr-FR French (France)
Galego (España) gl-ES Galician (Spain)
Hrvatski (Hrvatska) hr-HR Croatian (Croatia)
IsiZulu (Ningizimu Afrika) zu-ZA Zulu (South Africa)
Íslenska (Ísland) is-IS Icelandic (Iceland)
Italiano (Italia) it-IT Italian (Italy)
Lietuvių (Lietuva) lt-LT Lithuanian (Lithuania)
Magyar (Magyarország) hu-HU Hungarian (Hungary)
Nederlands (Nederland) nl-NL Dutch (Netherlands)
Norsk bokmål (Norge) nb-NO Norwegian Bokmål (Norway)
Polski (Polska) pl-PL Polish (Poland)
Português (Brasil) pt-BR Portuguese (Brazil)
Português (Portugal) pt-PT Portuguese (Portugal)
Română (România) ro-RO Romanian (Romania)
Slovenčina (Slovensko) sk-SK Slovak (Slovakia)
Slovenščina (Slovenija) sl-SI Slovenian (Slovenia)
Suomi (Suomi) fi-FI Finnish (Finland)
Svenska (Sverige) sv-SE Swedish (Sweden)
Tiếng Việt (Việt Nam) vi-VN Vietnamese (Vietnam)
Türkçe (Türkiye) tr-TR Turkish (Turkey)
Ελληνικά (Ελλάδα) el-GR Greek (Greece)
Български (България) bg-BG Bulgarian (Bulgaria)
Русский (Россия) ru-RU Russian (Russia)
Српски (Србија) sr-RS Serbian (Serbia)
Українська (Україна) uk-UA Ukrainian (Ukraine)
עברית (ישראל) he-IL Hebrew (Israel)
العربية (إسرائيل) ar-IL Arabic (Israel)
العربية (الأردن) ar-JO Arabic (Jordan)
العربية (الإمارات) ar-AE Arabic (United Arab Emirates)
العربية (البحرين) ar-BH Arabic (Bahrain)
العربية (الجزائر) ar-DZ Arabic (Algeria)
العربية (السعودية) ar-SA Arabic (Saudi Arabia)
العربية (العراق) ar-IQ Arabic (Iraq)
العربية (الكويت) ar-KW Arabic (Kuwait)
العربية (المغرب) ar-MA Arabic (Morocco)
العربية (تونس) ar-TN Arabic (Tunisia)
العربية (عُمان) ar-OM Arabic (Oman)
العربية (فلسطين) ar-PS Arabic (State of Palestine)
العربية (قطر) ar-QA Arabic (Qatar)
العربية (لبنان) ar-LB Arabic (Lebanon)
العربية (مصر) ar-EG Arabic (Egypt)
فارسی (ایران) fa-IR Persian (Iran)
हिन्दी (भारत) hi-IN Hindi (India)
ไทย (ประเทศไทย) th-TH Thai (Thailand)
한국어 (대한민국) ko-KR Korean (South Korea)
國語 (台灣) cmn-Hant-TW Chinese, Mandarin (Traditional, Taiwan)
廣東話 (香港) yue-Hant-HK Chinese, Cantonese (Traditional, Hong Kong)
日本語(日本) ja-JP Japanese (Japan)
普通話 (香港) cmn-Hans-HK Chinese, Mandarin (Simplified, Hong Kong)
普通话 (中国大陆) cmn-Hans-CN Chinese, Mandarin (Simplified, China)

Зависание голосового ввода

15.11.2016. Пользователи стали говорить, что баг исчез. Поэтому настройка сделана видимой и добавлен пункт «Отключено». Значение, равное 0 в списке параметров URL автоматически отключает ее — https://speechpad.ru/?maxsymb=0

01.04.2016. Для предотвращения зависания голосового ввод Гугл был введен выпадающий список Интервал перезагрузки в символах. Значение по умолчанию установлено в «5». Видимость этого выпадающего списка может быть установлена в настройках интерфейса в кабинете пользователя голосового блокнота. Также эта настройка видна по умолчанию в режиме транскрибирования.

установка видимости  интервала перезагрузки в символах
Выпдающий список выбора интервала перезагрузки в символах

Задать этот интервал можно и в строке URL голосового блокнота, задав параметр maxsymb, например, https://speechpad.ru/?maxsymb=25.

Голосовой ввод горячих клавиш в Windows

В режиме интеграции с Windows теперь можно вводить горячие клавиши голосом.
Последовательность нажатия клавиш, может быть задана в списке заменяемых слов. Нажатие каждой виртуальной клавиши начинается с префикса \\0x (двойной обратный слэш, ноль, маленький латинский x), затем следует две буквы шестнадцатеричного кода клавиши (код в любом регистре). Например коды: \\0x11 — для клавиши Ctrl, 0x1B — для клавиши ESC. Пробелов и других символов в такой последовательности быть не должно.

На следующем рисунке показан пример задания таких последовательностей.

Задание горячих клавиш

Последовательность \\0x14 активирует клавишу CapsLock. Строчка \\0x11\\0x10\\0x1b означает одновременное нажатие клавиш Ctrl Shift Esc, что приводит к выводу диспетчера задач Windows. Следущие три строчки открывают окно поиска (Ctrl F), переключают язык ввода (Ctrl Shift) и открывают окно справки (F1).

Найти виртуальные коды клавиатуры Windows можно в на этом сайте. Полный список всех виртуальных клавиш можно посмотреть на этом на сайте (виртуальные клавиши для мыши в блокноте работать не будут).

p.s. Нужно обовить модуль интеграции, если он был загружен до 06.03.2016. То есть загрузить zip архив (https://speechpad.ru/ru-speechpad-win-host.zip) и заменить старый файл (ru-speechpad-host.exe) в папке модуля интеграции на новый.

Закрепление окна блокнота над всеми окнами

28.02.2016. В голосовом блокноте теперь можно закреплять его окно над другими. Для этого нужно скачать и установить модуль интеграции и расширение блокнота, интеграция с OS при этом может быть не включена.

Флажок Показывать SpeechPad поверх окон находится в настройках расширения. Если его отметить, то вновь открытое окно блокнота будет расположено поверх других окон.

Настройка показа над всеми окнами

20.05.2015. Для ввода данных в офисные приложения на компьютере с помощью голосового блокнота его окно можно закрепить над всеми окнами. В Windows для этого можно использовать специальные свободно распространяемые программы: DeskPins (в восьмерке не работает), Windows Topmost control (работает в последних версиях Windows).

В Linux особой надобности в таких программах нет, так как закрепить окно можно средствами самой систем (надо щелкнуть правой кнопкой мыши на заголовке окна и выбрать пукт On Top).

Использование ярлыков Chrome для URL голосового блокнота с параметрами позволяет обеспечить независимость окна блокнота от остальных окон Chrome, в результате оно может работать как маленькая панель запуска и контроля состояния записи в режиме интеграции.

блокнот поверх остальных окон

Последние изменения в голосовом блокноте

Последние важные изменения в блокноте публикуются в твиттере. Подпишитесь на него и будете всегда в курсе.

19.01.2017. Добавлена кнопка Вырезать. Кнопка по умолчанию скрыта (нужно включить ее в настройках интерфейса). Вышла версия 9.0 расширения для учета этих изменений.

09.01.2017. Подключена автоматическая система включения расширенных возможностей блокнота при оплате. Включение теперь происходит в момент оплаты.

29.11.2016. Изменен формат меток времени (знаки для них) в результатах транскрибации.

21.11.2016 Настройка Число символов до перезагрузки теперь по умолчанию отключена и скрыта.

05.11.2016. Обновлен модуль интеграции с Linux. Исправлена серьезная ошибка в работе модуля.

29.09.2016. На панель транскрибирования добавлен ползунок управления скоростью воспроизведения.

19.09.2016. На сайт добавлен тест для проверки произношения при чтении.

18.09.2016. Поправлен код в инструменте произношения в связи с изменениями в web audio API.

02.09.2016. Изменено местоположение кнопок and A/a.

13.08.2016. Добавлена горячая клавиша включения/выключения проигрывателя.

11.08.2016. Перекомпонована панель транскрибирования, добавлена кнопка скрытия панели записи. Улучшена работа с кнопками редактирования текста: пунктуации, забоя, изменения регистра.

30.07.2016. Транскрибирование аудио файлов длинной более 15 минут теперь относится к расширенным возможностям блокнота и включается вместе с интеграцией с OS в профиле пользователя.

24.07.2016. Добавлен TTS Picker — инструмент для озвучивания текста, выбранного из списка.

21.06.2016. Добавлена голосовая команда Прописные буквы. Команда работает аналогично кнопке AA в интерфейсе блокнота. И кнопка и команда теперь действуют в режиме интеграции и копирования в буфер обмена.

13.06.2016. В голосовой блокнот добавлена интеграции с Linux.

10.05.2016. Текст вверху страницы теперь отключен для зарегистрированных пользователей. Раньше его видимость управлялась в настройках интерфейса, теперь такой настройки нет.

24.04.2016. Улучшена работа кнопки Отменить.

17.04.2016. Добавлен инструмент для озвучки субтитров.

07.04.2016. Изменена работа с языками. Теперь можно оставлять только свои языки и переключаться между ними голосом.

01.04.2016. Добавлен выпадающий список задания интервала перезагрузки в символах. Настройка позволяет избежать зависание голосового ввода.

29.03.2016. Существенные изменения в модуле транскрибации. Введен специальный флажок защиты от шумов. Улучшена работа системы при перезагрузке проигрывателя (слова на границе включения/отключения теперь на так часто теряются).

13.03.2016. Улучшена работа в метками в модуле транскрибации.

06.03.2016. Горячие клавиши в OS Windows можно теперь вводить голосом.

28.02.2016. Окно голосового блокнота теперь можно запускать поверх остальных окон.

20.02.2016. Поле Длина буфера фраз теперь по умолчанию видно в режиме транскрибирования, его значение выставлено в 200 символов.

05.02.2016. Изменено начальное состояние флажка «Возобновлять при ошибках» на «включено». Флажок по умолчанию теперь невидим.

30.11.2015. Добавлен флажок Отключить управление заглавными буквами Google. Флажок отключает автоматическую простановку заглавных букв Гуглом. Гугл в последнее время ставит их где надо и не надо. Если флажок включен, то работает только логика самого голосового блокнота, при которой заглавные ставятся только в начале предложений. Чтобы автоматически включить флажок можно воспользоваться параметров chkcap=1 в строке запроса, например, https://speechpad.ru?chkcap=1.

Как обновить блокнот

Расширение обновляется автоматически. Скрипт на самом сайте обновляется, но вам может потребоваться обновить страницу на сайте по клавише Ctrl + F5, а то он кэшируется.

Модуль интеграции должен быть обновлен вами самостоятельно со страницы https://speechpad.ru/blog/windows-integration/». Для его обновления нужно скачать архив и просто заменить старый файл ru-speechpad-host.exe на новый.

Транскрибирование аудио файлов

Перевод аудио в текст в модуле транскрибирования основывается на подаче звука с колонок на микрофон. Это можно достичь либо, положив микрофон к колонкам, либо посредством аудио кабеля, как физического, так и виртуального. Можно также использовать стерео микшер.

Транскрибирование звуковых файлов длинной более 15 минут относится к расширенным возможностям блокнота. За них взимается небольшая плата. Оплатить ее можно на странице профиля пользователя голосового блокнота.

Панель перевода аудио в текст открывается после нажатия на кнопку +Транскрибацию на главной странице сайта.
панель транскрибирования

На приведенной картинке я обвел красным то что относится к этому модулю и перечеркнул, то что использовать вместе с ним не надо. То есть не нужно включать флажки вывод в буфер и интеграции. Поле Длина буфера фраз не дает накапливаться тексту в поле предварительного просмотра (актуально при использовании виртуальных или физических кабелей).

Переключатель Защита от шумов используется для борьбы с зависанием ввода в шумных видео.

Для загрузки видео с Youtube в модуль нужно ввести его ID.
загрузка ролика в панель

Транскрибирование может вестись в двух режимах, зависящих от установки флажка Запускать синхронно с записью. Когда этот флажок включен, то нажатие на кнопку включить запись одновременно включает проигрыватель, а остановить запись — останавливает его.

Весь алгоритм работы в этом случае заключается:
1) в загрузке ролика или файла в проигрыватель
2) обеспечению поступления звука с ролика на микрофон
3) Выставлению настроек, отметке флажка вставлять метки времени
3) нажатию на кнопку запуска.

Если флажок Запускать синхронно с записью не установлен то появляется панель задания времен паузы и работы.

панель пауза/работа

При таком режиме кнопка включить воспроизведение запустит проигрыватель в прерывистом режиме, то есть после 5 секунд (как задано на нашем рисунке) воспроизведения он будет останавливаться на 5 секунд паузы. Кнопка же включить запись от нее не зависит. Если время паузы и время воспроизведения не установлены, то работает просто кнопка включить/отключить воспроизведение.

Такой режим может быть использован для полуавтоматического транскрибирования. При этом режиме роль виртуального аудио кабеля играет человек — он прослушивает запись в течении времени воспроизведения и надиктовывает ее в течение времени паузы.

Обработка текста после транскрибирования

Текст получаемый методом распознавания речи содержит ошибки. Для его исправления используются метки времени, полученные при транскрибировании. В этом режиме нужно также отключить флажок запускать синхронно с записью или воспользоваться горячей клавишей запуска/останова проигрывателя для расширения блокнота.

Алгоритм исправления следующий:
1) текст с метками сначала приводится к более удобному виду последовательным нажатием кнопок метки в SRТ и SRT в метки
2) выставляется флажок запуск с меток времени
2) курсор устанавливается на нужное место текста
3) с помощью горячей клавиши или с помощью кнопки включить/выключить проигрыватель прослушивается данный кусок записи (срабатывает ближайшая слева от курсора метка времени)
4) вручную или при использовании кнопок блокнота редактируется текст
5) метки убираются нажатием на кнопку убрать метки времени, или текст приводится к формату SRT (если делаются титры для Youtube)

Транскрибирование аудио в автоматическом режиме

Транскрибирование методом проговаривания

Ошибки и сложности при транскрибировании