Транскрибирование аудио файлов

Перевод аудио в текст в модуле транскрибирования основывается на подаче звука с колонок на микрофон. Это можно достичь либо, положив микрофон к колонкам, либо посредством аудио кабеля, как физического, так и виртуального. Можно также использовать стерео микшер.

Транскрибирование звуковых файлов длинной более 15 минут относится к расширенным возможностям блокнота. За них взимается небольшая плата. Чтобы попробовать или оплатить ее, нужно зарегистрироваться на сайте и зайти в кабинет пользователя голосового блокнота (появится оранжевая ссылка).

Панель перевода аудио в текст открывается после нажатия на кнопку +Транскрибацию на главной странице сайта.
панель транскрибирования

На приведенной картинке я обвел красным то что относится к этому модулю и перечеркнул, то что использовать вместе с ним не надо. То есть не нужно включать флажки вывод в буфер и интеграции. Поле Длина буфера фраз не дает накапливаться тексту в поле предварительного просмотра (актуально при использовании виртуальных или физических кабелей).

Переключатель Защита от шумов используется для борьбы с зависанием ввода в шумных видео.

Для загрузки видео с Youtube в модуль нужно ввести его ID.
загрузка ролика в панель

Транскрибирование может вестись в двух режимах, зависящих от установки флажка Запускать синхронно с записью. Когда этот флажок включен, то нажатие на кнопку включить запись одновременно включает проигрыватель, а остановить запись — останавливает его.

Весь алгоритм работы в этом случае заключается:
1) в загрузке ролика или файла в проигрыватель
2) обеспечению поступления звука с ролика на микрофон
3) Выставлению настроек, отметке флажка вставлять метки времени
3) нажатию на кнопку запуска.

Если флажок Запускать синхронно с записью не установлен то появляется панель задания времен паузы и работы.

панель пауза/работа

При таком режиме кнопка включить воспроизведение запустит проигрыватель в прерывистом режиме, то есть после 5 секунд (как задано на нашем рисунке) воспроизведения он будет останавливаться на 5 секунд паузы. Кнопка же включить запись от нее не зависит. Если время паузы и время воспроизведения не установлены, то работает просто кнопка включить/отключить воспроизведение.

Такой режим может быть использован для полуавтоматического транскрибирования. При этом режиме роль виртуального аудио кабеля играет человек — он прослушивает запись в течении времени воспроизведения и надиктовывает ее в течение времени паузы.

Обработка текста после транскрибирования

Текст получаемый методом распознавания речи содержит ошибки. Для его исправления используются метки времени, полученные при транскрибировании. В этом режиме нужно также отключить флажок запускать синхронно с записью или воспользоваться горячей клавишей запуска/останова проигрывателя для расширения блокнота.

Алгоритм исправления следующий:
1) текст с метками сначала приводится к более удобному виду последовательным нажатием кнопок метки в SRТ и SRT в метки
2) выставляется флажок запуск с меток времени
2) курсор устанавливается на нужное место текста
3) с помощью горячей клавиши или с помощью кнопки включить/выключить проигрыватель прослушивается данный кусок записи (срабатывает ближайшая слева от курсора метка времени)
4) вручную или при использовании кнопок блокнота редактируется текст
5) метки убираются нажатием на кнопку убрать метки времени, или текст приводится к формату SRT (если делаются титры для Youtube)

Пакетный режим транскрибирования аудио и видео файлов

Транскрибирование аудио и видео файлов в пакетном режиме (для более чем двух файлов) относится к премиум-функциям голосового блокнота. Как и расширенные функции они доступны после оплаты в кабинете пользователя. Чтобы попробовать этот режим нужно при загрузке аудио и видео выбрать сразу несколько аудио или видео файлов, удерживая при выборе мышью клавишу Ctrl.

Пакетный режим выбора файлов

Транскрибирование аудио в автоматическом режиме

Транскрибирование методом проговаривания

Ошибки и сложности при транскрибировании

Запись опубликована автором в рубрике Без рубрики.

Транскрибирование аудио файлов: 50 комментариев

    1. admin Автор записи

      Откуда вывести, если из блокнота, то самое простое нажать на кнопку «Копировать»

  1. Оксана

    Здравствуйте, а почему примеры только с видео файлами. Мне необходимо распознать аудио mp3 файл. Конвертер просто не существует в html5. Вы писали, что есть такой конвертер онлайн. Но мне в день нужно 1000 новых mp3 файлов преобразовывать с диктофона. Явно онлайн не годится.
    Получается аудио и видео преобразование только с ютюба.

  2. Валенти

    В транскрибации при нажатии кнопки»Включить запись» ничего не происходит , только напротив Уровня распознавания появляется надпись «error: language-not-supported» . Как это исправить?

  3. Анита

    Добрый день!
    Как обойти\решить eror: no speach? В наушниках звук есть, два слова программа распознала, а дальше выдает ошибку.

    1. admin Автор записи

      Судя по теме комментария, это относится к транскрибированию. Тогда звук должен попасть в микрофон. Либо его к колонкам надо поставить, либо использовать виртуальный кабель.

  4. alex

    мне нужно распознавать дебаты в суде.
    Хром не устанет онлайн 4 часа подряд транскрибировать?

    1. admin Автор записи

      Мне кажется будет лучше через каждые 20 минут скидывать результат из результирующего поля. Так будет надежней.

  5. Анна

    Доброго вам времени суток, автор программы и все остальные) Скажите пожалуйста, автор, а почему при транскрибации мне приходится буквально каждые полминуты останавливать запись (при том что текст идёт и идёт) и в предварительном поле он пишет всего два-три, от силы десять слов? Я бы не останавливала, но сразу стала замечать что он напишет несколько слов (которые расшифрует, дальше текст идёт, но его соответственно при выключенном микрофоне и динамиках не слышно, а сама программа никак не откликается? Пять минут после молчания, я думаю смысла нет больше ждать чтобы она «заговорила», то есть начала дальше расшифровывать. Поэтому приходится останавливать через каждые минуту пол-минуты. Неудобно, честно.
    Внимательнейше прочла статью, а потом установила Virtual audio cabel (VAC), выключила микрофон и сделала по умолчанию его в первой вкладке, то есть всё как вы на видео объясняли, но.. вот такая вот петрушка.
    Кстати у меня при нажатии кнопочки транскрибация нет строки «Длина буфера фраз». Вот нет и всё. Подскажите, может это именно из-за этого? Браузер Гугл Хром.

  6. Анна

    Доброго вам времени суток, автор программы и все остальные)
    Скажите пожалуйста, автор, а почему при транскрибации мне приходится
    буквально каждые полминуты останавливать запись (при том что текст идёт и идёт, а в предварительном поле он пишет всего два-три, от силы десять слов?
    Я бы не останавливала, но сразу стала замечать что он напишет несколько слов (которые расшифрует, дальше текст идёт, но его соответственно при выключенном микрофоне и динамиках не слышно, а сама программа никак не откликается? Пять минут после молчания, я думаю смысла нет больше ждать, чтобы она «заговорила», то есть начала дальше расшифровывать. Поэтому приходится останавливать через каждые минуту пол-минуты. Неудобно, честно.
    Внимательнейше прочла статью, а потом, выключила микрофон и сделала по умолчанию его в первой вкладке, то есть всё как вы на видео объясняли, но.. вот такая вот петрушка.
    Кстати у меня при нажатии кнопочки «транскрибация» нет строки «длина буфера фраз». Вот нет и всё. Подскажите, может это именно из-за этого? браузер Гугл Хром, ноутбук dns (если надо — подробно модель напишу и что ещё надо), колонок нет, микрофон встроенный.

    1. admin Автор записи

      Думаю, что это из-за длины буфера. Включить этот переключатель можно в настройках интерфейса, и выставите там 100 символов в длине буфера.

  7. Анна

    А, всё, нашла, спасибо) Надо было снять галочку с «запускать синхронно с записью» и тогда эта «длина буфера фраз» появится. Но всё равно, как-то обрывочно что ли идёт. То ли из-за того что в мультсериале много фоновой музыки и программа не всегда распознаёт саму речь из-за неё, то ли из-за того что я не могу по толковому выставить «время воспроизведения в секундах и время паузы в секундах. первое ставлю на максимальное — хочется чтобы без перерывов было, а второе на минимальное, но.. опять же одну фразу он расшифровывает (пусть и с ошибками и чаще вообще с другими похожими по звучанию словами), а вторую — упорно молчит. и молчит и молчит.. пока я не нажму на кнопку «отключить запись». Дальше расшифровка не идёт почему-то. Иногда он расшифровывает две фразы за раз, но это редкость. Особо эта галочка ничего не дала, разве что диапазон фразы стал длиннее, раньше оно вообще полфразы или пару слов расшифровывало.
    Ладно, хоть что-то, спасибо большое)

      1. Анна

        Дорогой автор, спасибо вам за ваши ответы! Я пробовала с разными записями, в тот числе которые вы пытались транкрибировать и пришла к выводу что именно такие чёткие и спокойные видео с минимум шумов лучше всего и расшифровываются, у меня практически получилось тоже что и у вас на тех двух видео) Но увы, в сериях мультфильмах о Чёрном Плаще порой слишком много звуков, фоновой музыки и быстрая речь, (подчас и мне приходится иной раз перематывать отрывок в пять-десять секунд много раз чтобы понять что же там говорят. Так что ваша программа немного с такими записями не справляется. Но всё равно — спасибо за ваши ответы и ваше внимание. И удачи вам)
        Я всё же буду иметь вашу программу в виду и буду всем её советовать, это такой большой труд) Ещё раз — большое вам спасибо))

  8. Glina

    Здравствуйте! Сегодня зарегистрировалась в блокноте, подключила Гугл Хром, включила тестовый режим, подключила расширение, а интеграции — нет.Что делать?

  9. Anna

    Здравствуйте! Пытаюсь загрузить файл для транскрибирования (mp3). Настраиваю все в соответствие с Вашим видео. Когда я нажимаю «включить запись», ничего не происходит (запись не запускается, кнопка не становится оранжевой). Пробовала и с виртуальным кабелем и с микшером. Скажите, пожалуйста, в чем может быть проблема.

  10. Анна

    Добрый день. В описании программы написано при аудио свыше 15 минут взимается символическая плата, хотелось бы узнать размер данной платы. А также подскажите может ли программа переводить речь в текст из видеофайла?

  11. Юлия

    Добрый день! Оплатила расширенные возможности программы, но окно о «доп.возможностях» программы продолжает выскакивать и блокирует работу. Что делать?

    1. admin Автор записи

      нужно работать в авторизованном режиме, то есть войти под своим логином

  12. Елена

    Не могу найти информацию о транскрибации видео расположенного на компьютере. С аудио все получилось с ютубом тоже.

  13. Мария

    здравствуйте, я недавно начала пользоваться вашим сервисом, еще не разобралась, что к чему.
    один раз пользовалась на сайте для голосового набора текста. сейчас я зашла под своим логином, нажимаю кнопку «включить запись» — кнопка не работает. в панели управления написано: «Уровень распознавания error: blocked».
    подскажите пожалуйста, что мне делать?

  14. Максим

    Здравствуйте! «Разработан пакетный режим транскрибирования файлов» — а для ютуб-видео не планируете добавить возможность пакетного распознавания? Спасибо!

  15. Юрий

    Проще вбить руками, чем с этой ерундой возиться. Ошибки замучишься исправлять!

    1. admin Автор записи

      Разные режимы, разные задачи и разное качество. То есть надо подходить контекстно.

  16. Фатима

    Здравствуйте! Во время транскрибирования, где-то через минуты 2-3 зависает все, не могу переключиться.. В чем может быть причина?

  17. Фатима

    Здравствуйте! Вылезает вот это:
    Чтобы транскрибировать файлы длительностью больше 15 минут нужно включить расширенные возможности голосового блокнота см. https://speechpad.ru/blog/about-speechpad/
    Подскажите, пожалуйста, что делать? Спасибо!

    1. admin Автор записи

      Эти функции включаются в личном кабинете. Нужно залогиниться и тогда появится оранжевая ссылка личного кабинета.

  18. Фатима

    Я зарегистрировалась сразу и оплатила за использование премиум-функций сервиса на один месяц (04 .10.) В начале работал не плохо, но сегодня выдает эту картинку..

    1. admin Автор записи

      Там два вида: расширенные (это 100 в месяц) и премиум функции (300 р). Премиум это когда много файлов за один раз, а расширенные это речевой ввод и транскрибирование больше 15 минут.

      1. Фатима

        И что, я должна и заплатить и за расширенные тоже? Я думала, что в премиум — функции входит все… До сих пор работал же без сбоев..

Добавить комментарий

Ваш e-mail не будет опубликован.