Транскрибирование аудио файлов

Перевод аудио в текст в модуле транскрибирования основывается на подаче звука с колонок на микрофон. Это можно достичь либо, положив микрофон к колонкам, либо посредством аудио кабеля, как физического, так и виртуального. Можно также использовать стерео микшер.

Транскрибирование звуковых файлов длинной более 15 минут относится к расширенным возможностям блокнота. За них взимается небольшая плата. Чтобы попробовать или оплатить ее, нужно зарегистрироваться на сайте и зайти в кабинет пользователя голосового блокнота (появится оранжевая ссылка).

Панель перевода аудио в текст открывается после нажатия на кнопку +Транскрибацию на главной странице сайта.
панель транскрибирования

На приведенной картинке я обвел красным то что относится к этому модулю и перечеркнул, то что использовать вместе с ним не надо. То есть не нужно включать флажки вывод в буфер и интеграции. Поле Длина буфера фраз не дает накапливаться тексту в поле предварительного просмотра (актуально при использовании виртуальных или физических кабелей).

Переключатель Защита от шумов используется для борьбы с зависанием ввода в шумных видео.

Для загрузки видео с Youtube в модуль нужно ввести его ID.
загрузка ролика в панель

Транскрибирование может вестись в двух режимах, зависящих от установки флажка Запускать синхронно с записью. Когда этот флажок включен, то нажатие на кнопку включить запись одновременно включает проигрыватель, а остановить запись — останавливает его.

Весь алгоритм работы в этом случае заключается:
1) в загрузке ролика или файла в проигрыватель
2) обеспечению поступления звука с ролика на микрофон
3) Выставлению настроек, отметке флажка вставлять метки времени
3) нажатию на кнопку запуска.

Если флажок Запускать синхронно с записью не установлен то появляется панель задания времен паузы и работы.

панель пауза/работа

При таком режиме кнопка включить воспроизведение запустит проигрыватель в прерывистом режиме, то есть после 5 секунд (как задано на нашем рисунке) воспроизведения он будет останавливаться на 5 секунд паузы. Кнопка же включить запись от нее не зависит. Если время паузы и время воспроизведения не установлены, то работает просто кнопка включить/отключить воспроизведение.

Такой режим может быть использован для полуавтоматического транскрибирования. При этом режиме роль виртуального аудио кабеля играет человек — он прослушивает запись в течении времени воспроизведения и надиктовывает ее в течение времени паузы.

Обработка текста после транскрибирования

Текст получаемый методом распознавания речи содержит ошибки. Для его исправления используются метки времени, полученные при транскрибировании. В этом режиме нужно также отключить флажок запускать синхронно с записью или воспользоваться горячей клавишей запуска/останова проигрывателя для расширения блокнота.

Алгоритм исправления следующий:
1) текст с метками сначала приводится к более удобному виду последовательным нажатием кнопок метки в SRТ и SRT в метки
2) выставляется флажок запуск с меток времени
2) курсор устанавливается на нужное место текста
3) с помощью горячей клавиши или с помощью кнопки включить/выключить проигрыватель прослушивается данный кусок записи (срабатывает ближайшая слева от курсора метка времени)
4) вручную или при использовании кнопок блокнота редактируется текст
5) метки убираются нажатием на кнопку убрать метки времени, или текст приводится к формату SRT (если делаются титры для Youtube)

Пакетный режим транскрибирования аудио и видео файлов

Транскрибирование аудио и видео файлов в пакетном режиме (для более чем двух файлов) относится к премиум-функциям голосового блокнота. Как и расширенные функции они доступны после оплаты в кабинете пользователя. Чтобы попробовать этот режим нужно при загрузке аудио и видео выбрать сразу несколько аудио или видео файлов, удерживая при выборе мышью клавишу Ctrl.

Пакетный режим выбора файлов

Транскрибирование аудио в автоматическом режиме

Транскрибирование методом проговаривания

Ошибки и сложности при транскрибировании

Запись опубликована автором в рубрике Без рубрики.

Транскрибирование аудио файлов: 52 комментария

    1. admin Автор записи

      Откуда вывести, если из блокнота, то самое простое нажать на кнопку «Копировать»

  1. Оксана

    Здравствуйте, а почему примеры только с видео файлами. Мне необходимо распознать аудио mp3 файл. Конвертер просто не существует в html5. Вы писали, что есть такой конвертер онлайн. Но мне в день нужно 1000 новых mp3 файлов преобразовывать с диктофона. Явно онлайн не годится.
    Получается аудио и видео преобразование только с ютюба.

  2. Валенти

    В транскрибации при нажатии кнопки»Включить запись» ничего не происходит , только напротив Уровня распознавания появляется надпись «error: language-not-supported» . Как это исправить?

  3. Анита

    Добрый день!
    Как обойти\решить eror: no speach? В наушниках звук есть, два слова программа распознала, а дальше выдает ошибку.

    1. admin Автор записи

      Судя по теме комментария, это относится к транскрибированию. Тогда звук должен попасть в микрофон. Либо его к колонкам надо поставить, либо использовать виртуальный кабель.

  4. alex

    мне нужно распознавать дебаты в суде.
    Хром не устанет онлайн 4 часа подряд транскрибировать?

    1. admin Автор записи

      Мне кажется будет лучше через каждые 20 минут скидывать результат из результирующего поля. Так будет надежней.

  5. Анна

    Доброго вам времени суток, автор программы и все остальные) Скажите пожалуйста, автор, а почему при транскрибации мне приходится буквально каждые полминуты останавливать запись (при том что текст идёт и идёт) и в предварительном поле он пишет всего два-три, от силы десять слов? Я бы не останавливала, но сразу стала замечать что он напишет несколько слов (которые расшифрует, дальше текст идёт, но его соответственно при выключенном микрофоне и динамиках не слышно, а сама программа никак не откликается? Пять минут после молчания, я думаю смысла нет больше ждать чтобы она «заговорила», то есть начала дальше расшифровывать. Поэтому приходится останавливать через каждые минуту пол-минуты. Неудобно, честно.
    Внимательнейше прочла статью, а потом установила Virtual audio cabel (VAC), выключила микрофон и сделала по умолчанию его в первой вкладке, то есть всё как вы на видео объясняли, но.. вот такая вот петрушка.
    Кстати у меня при нажатии кнопочки транскрибация нет строки «Длина буфера фраз». Вот нет и всё. Подскажите, может это именно из-за этого? Браузер Гугл Хром.

  6. Анна

    Доброго вам времени суток, автор программы и все остальные)
    Скажите пожалуйста, автор, а почему при транскрибации мне приходится
    буквально каждые полминуты останавливать запись (при том что текст идёт и идёт, а в предварительном поле он пишет всего два-три, от силы десять слов?
    Я бы не останавливала, но сразу стала замечать что он напишет несколько слов (которые расшифрует, дальше текст идёт, но его соответственно при выключенном микрофоне и динамиках не слышно, а сама программа никак не откликается? Пять минут после молчания, я думаю смысла нет больше ждать, чтобы она «заговорила», то есть начала дальше расшифровывать. Поэтому приходится останавливать через каждые минуту пол-минуты. Неудобно, честно.
    Внимательнейше прочла статью, а потом, выключила микрофон и сделала по умолчанию его в первой вкладке, то есть всё как вы на видео объясняли, но.. вот такая вот петрушка.
    Кстати у меня при нажатии кнопочки «транскрибация» нет строки «длина буфера фраз». Вот нет и всё. Подскажите, может это именно из-за этого? браузер Гугл Хром, ноутбук dns (если надо — подробно модель напишу и что ещё надо), колонок нет, микрофон встроенный.

    1. admin Автор записи

      Думаю, что это из-за длины буфера. Включить этот переключатель можно в настройках интерфейса, и выставите там 100 символов в длине буфера.

  7. Анна

    А, всё, нашла, спасибо) Надо было снять галочку с «запускать синхронно с записью» и тогда эта «длина буфера фраз» появится. Но всё равно, как-то обрывочно что ли идёт. То ли из-за того что в мультсериале много фоновой музыки и программа не всегда распознаёт саму речь из-за неё, то ли из-за того что я не могу по толковому выставить «время воспроизведения в секундах и время паузы в секундах. первое ставлю на максимальное — хочется чтобы без перерывов было, а второе на минимальное, но.. опять же одну фразу он расшифровывает (пусть и с ошибками и чаще вообще с другими похожими по звучанию словами), а вторую — упорно молчит. и молчит и молчит.. пока я не нажму на кнопку «отключить запись». Дальше расшифровка не идёт почему-то. Иногда он расшифровывает две фразы за раз, но это редкость. Особо эта галочка ничего не дала, разве что диапазон фразы стал длиннее, раньше оно вообще полфразы или пару слов расшифровывало.
    Ладно, хоть что-то, спасибо большое)

      1. Анна

        Дорогой автор, спасибо вам за ваши ответы! Я пробовала с разными записями, в тот числе которые вы пытались транкрибировать и пришла к выводу что именно такие чёткие и спокойные видео с минимум шумов лучше всего и расшифровываются, у меня практически получилось тоже что и у вас на тех двух видео) Но увы, в сериях мультфильмах о Чёрном Плаще порой слишком много звуков, фоновой музыки и быстрая речь, (подчас и мне приходится иной раз перематывать отрывок в пять-десять секунд много раз чтобы понять что же там говорят. Так что ваша программа немного с такими записями не справляется. Но всё равно — спасибо за ваши ответы и ваше внимание. И удачи вам)
        Я всё же буду иметь вашу программу в виду и буду всем её советовать, это такой большой труд) Ещё раз — большое вам спасибо))

  8. Glina

    Здравствуйте! Сегодня зарегистрировалась в блокноте, подключила Гугл Хром, включила тестовый режим, подключила расширение, а интеграции — нет.Что делать?

  9. Anna

    Здравствуйте! Пытаюсь загрузить файл для транскрибирования (mp3). Настраиваю все в соответствие с Вашим видео. Когда я нажимаю «включить запись», ничего не происходит (запись не запускается, кнопка не становится оранжевой). Пробовала и с виртуальным кабелем и с микшером. Скажите, пожалуйста, в чем может быть проблема.

  10. Анна

    Добрый день. В описании программы написано при аудио свыше 15 минут взимается символическая плата, хотелось бы узнать размер данной платы. А также подскажите может ли программа переводить речь в текст из видеофайла?

  11. Юлия

    Добрый день! Оплатила расширенные возможности программы, но окно о «доп.возможностях» программы продолжает выскакивать и блокирует работу. Что делать?

    1. admin Автор записи

      нужно работать в авторизованном режиме, то есть войти под своим логином

  12. Елена

    Не могу найти информацию о транскрибации видео расположенного на компьютере. С аудио все получилось с ютубом тоже.

  13. Мария

    здравствуйте, я недавно начала пользоваться вашим сервисом, еще не разобралась, что к чему.
    один раз пользовалась на сайте для голосового набора текста. сейчас я зашла под своим логином, нажимаю кнопку «включить запись» — кнопка не работает. в панели управления написано: «Уровень распознавания error: blocked».
    подскажите пожалуйста, что мне делать?

  14. Максим

    Здравствуйте! «Разработан пакетный режим транскрибирования файлов» — а для ютуб-видео не планируете добавить возможность пакетного распознавания? Спасибо!

  15. Юрий

    Проще вбить руками, чем с этой ерундой возиться. Ошибки замучишься исправлять!

    1. admin Автор записи

      Разные режимы, разные задачи и разное качество. То есть надо подходить контекстно.

  16. Фатима

    Здравствуйте! Во время транскрибирования, где-то через минуты 2-3 зависает все, не могу переключиться.. В чем может быть причина?

  17. Фатима

    Здравствуйте! Вылезает вот это:
    Чтобы транскрибировать файлы длительностью больше 15 минут нужно включить расширенные возможности голосового блокнота см. https://speechpad.ru/blog/about-speechpad/
    Подскажите, пожалуйста, что делать? Спасибо!

    1. admin Автор записи

      Эти функции включаются в личном кабинете. Нужно залогиниться и тогда появится оранжевая ссылка личного кабинета.

  18. Фатима

    Я зарегистрировалась сразу и оплатила за использование премиум-функций сервиса на один месяц (04 .10.) В начале работал не плохо, но сегодня выдает эту картинку..

    1. admin Автор записи

      Там два вида: расширенные (это 100 в месяц) и премиум функции (300 р). Премиум это когда много файлов за один раз, а расширенные это речевой ввод и транскрибирование больше 15 минут.

      1. Фатима

        И что, я должна и заплатить и за расширенные тоже? Я думала, что в премиум — функции входит все… До сих пор работал же без сбоев..

  19. Пользователь

    Добрый день.
    Подскажите что означают смежные метки SRT в траскрибированном файле.
    Вот фрагмент примера.

    [00:00:01,000] hey guys and welcome back in So before we jump into did extraction there is one more thing that we should talk about so before we go out or a little introduction to what data extraction is there how we’re going to use it [00:00:14,200] [00:00:13,800] use it to parse website now sometimes if there are very big services so for example if pulled up the Twitter page here and we’ll talk about with us in the second there are special services devised for [00:00:28,100] [00:00:27,900] [00:00:28,500] for developer [00:00:28,700] …

    Я выделил непонятные мне метки. Первая из выделенных наверное метка времени и через запятую в скобках это длительность фрагмента?
    Сразу идет следующая метка где время меньше предыдущей метки. Непонятно что означают три подряд выделенные метки .

    Есть ли возможность делать перевод строки после завершающего фрагмента чтобы новая метка начиналась с начала новой строки?
    По какому принципу идет разбиение на метки? По паузам?

    1. admin Автор записи

      Здравствуйте.
      Метка ставится в тот момент, когда начинается новый отрезок речи и когда заканчивается текущий.
      Внутри метки в квадратных скобках стоит время любого из этих событий.
      При останове записи и плеера, например, в случае останова по времени защита от шума и следующем включении плеер возвращается назад на секунду и может случится так что следующая метка меньше предыдущей.
      00:00:14,200] [00:00:13,800]
      Чтобы это исправить в конечном SRT есть флажок коррекция времени.

      [00:00:28,100] [00:00:27,900] [00:00:28,500]

      Метка средняя началась но не был получен результат. При переводе в SRT средняя будет игнорирована

      >>Есть ли возможность делать перевод строки после завершающего фрагмента чтобы новая метка начиналась с начала новой строки?
      Сделайте перевод в SRT и обратно они упорядятся

      Перевод вашего фрагмента с коррекцией

      1
      00:00:01,000 —> 00:00:14,200
      hey guys and welcome back in So before we jump into did extraction there is one more thing that we should talk about so before we go out or a little introduction to what data extraction is there how we’re going to use it

      2
      00:00:14,300 —> 00:00:28,100
      use it to parse website now sometimes if there are very big services so for example if pulled up the Twitter page here and we’ll talk about with us in the second there are special services devised for

      3
      00:00:28,500 —> 00:00:28,700
      for developer

      Обратный перевод
      [00:00:01,000] hey guys and welcome back in So before we jump into did extraction there is one more thing that we should talk about so before we go out or a little introduction to what data extraction is there how we’re going to use it
      [00:00:14,200][00:00:14,300] use it to parse website now sometimes if there are very big services so for example if pulled up the Twitter page here and we’ll talk about with us in the second there are special services devised for
      [00:00:28,100][00:00:28,500] for developer
      [00:00:28,700]

Добавить комментарий

Ваш e-mail не будет опубликован.