Компьютерные уроки

Как распознать речь из аудио. Подборка сервисов для расшифровки аудио в текст


Обычно Google translate используют для перевода речи транслируемой микрофоном.



Идея лежала на поверхности и наверняка программы для этого должны были присутствовать. Так -же как сделано в Gogle translate.


Но, гуглением, программы не нашлось, кроме двух сайтов. Которые использовали по уверениям их авторов всю мощь искусственного интеллекта Google.


Первый нашелся русскоязычный сайт https://speechpad.ru/blog/windows-integration/



Но, как бы не было обидно, магия не сработала...


Был найден англоязычный сайт: https://speechlogger.appspot.com/ru/

Результат - тот же. Но, было в отличие от предыдущего - объяснение.


Там было показано, как реализовать, казалось бы, простую идею: пустить в качестве сигнала микрофона - аудио файл.


Для этого необходим драйвер VB-CABLE Virtual Audio Device Он OpenSourse.


Искренняя благодарность "прогнившим западным" альтруистам!


Устанавливаем (проверено под Win 10) и настраиваем микрофонный вход в системе, на этот драйвер.


Открываем Gogle translate, нажимаем кнопочку с изображением микрофона и запускаем любой плейер с аудио - файлом.


И - Вааля! Магия работает, на ваших глазах появляются строки текста.



Точность распознавания, на глаз 85-97 %. Но, есть ограничение - 5 тыс. символов, что немало. Поэтому приходиться останавливать запись, копировать текст и продолжать далее.


Заодно происходит перевод на второй выбранный язык. О боже, сколько странных переводов появится!


Дополнение: есть способ без ограничений на количество символов. - это Google Docs, он так-же работает но, только без перевода на второй язык. Спасибо dioneo


Как мне кажется, Google блокирует постоянные подключения с одних IP. Поэтому ценность этого способа - в том, что все IP не заблокируешь и соответственно, этот способ более работоспособен. Тут уже слово разработчикам и большим "гуру", чем автор.


Всем добра и удобства.

Несмотря на популяризацию видео контента, текстовый документ всегда будет выигрывать как при составлении онлайн документов, так и при наполнении сайтов. Вопреки всему, транскрибация или иными словами перевод аудио в текст, услуга востребованная по сей день.

Прочитайте эту статью, где рассказано какими способами можно воспользоваться, чтобы перевести аудио или видео в текст с наименьшими усилиями.

Транскрибация - это перевод речи в текст. Переводить можно как аудио файлы (запись на диктофоне, песни и тд.) так и видео (речи из фильмов).

Транскрибация, это довольно трудоемкий процесс. Во главе угла стоит ваше умение быстро … (сначала хотел написать «печатать», но скажите, разве в школе, мы не писали под диктовку учителя, разве это не перевод аудио в текст?) печатать и писать.

Данная профессия востребована не первый год. Современный блогин, так же не прочь воспользоваться уже раскрытой темой в каком нибудь видео, путем перевода аудио в текст.

В этой статье, разберем 6 способов как транскрибировать в текст и начнем с программ для ручной транскрибации.

Программы для перевода аудио в текст

Как мы поняли, транскрибация, это перевод речи в текст. То есть, мы должны записать все то, что нам говорят.

Для этой цели существуют как элементарные, так и профессиональные программы.

Текстовый редактор Microsoft Word

Самый банальный способ осуществить перевод аудио в текст, это воспользоваться:

  1. Запустить аудио или видео файл.
  2. Открыть текстовый редактор.
  3. Слушать и набирать текст.

Изначально, в этом разделе планировал писать про Word, но поразмыслив, решил, что подойдет любой текстовый редактор: блокнот, Word, Google Документы, LibreOffice Writer и другие. Главное, чтобы была возможность набирать текст с клавиатуры.

Банальность данного способа заключается в том, что вам придется по несколько раз прослушивать один и тот же участок аудио, если конечно вы не обладаете фантастической скоростью печатания.

И все же, этот способ имеет право на существование.

Профессиональная программа для транскрибации Express Scribe

Решили заняться переводом аудио в текст? Лучшее что можно предложить, это программа Express Scribe.

Данная программа позволяет набирать текст непосредственно работая с аудио или видео файлом в соседнем окне. Работает следующим образом:

  1. Закачиваете в саму программу аудио или видео файл.
  2. При помощи горячих клавиш, настраиваете функции воспроизведения или остановки ролика.
  3. В соседнем окне набираете текст.

Разработчики предоставляют платную и немного урезанную бесплатную версию. Как по мне, если вы не занимаетесь профессионально транскрибацией, достаточно будет бесплатной версии.

Из минусов: она на английском и русификатора нет. Хотя, интерфейс на столько понятен, что языковой барьер не должен стать преградой.

Из плюсов:

  • Для набора текста, не нужно переключаться между программами.
  • В зависимости от скорости печатания, можно подстроить под себя, скорость проигрывания записи.
  • Предусмотрено огромное количество настраиваемых горячих клавиш, которые помогут в работе с программой.
  • Имеется возможность расстановки тайм-кодов.

Плеер для расшифровщиков LossPlay

Плеер LossPlay, представляет из себя модернизированный проигрыватель аудио и видео файлов. В основе идеи функционала, был взят известный плейер Winamp.

Транскрибация происходит по следующему принципу:

  1. Запустите плеер LossPlay.
  2. Добавьте аудио или видео файл.
  3. Откройте любой текстовый редактор, в котором будем набирать текст.
  4. Начните воспроизведение файла.

Чем же отличается этот способ, от способа предложенным самым первым?

По сути, да, идея та же самая. И все же есть свои нюансы. Дело в том, что при запуске аудио или видео файла, есть возможность свернуть плеер и работать только в текстовом редакторе. К плееру, можно обращаться по средством горячих клавиш, которым можно:

  • запустить воспроизведение;
  • остановить воспроизведение;
  • замедлить воспроизведение;
  • установить тайм-код;
  • и многое другое.

По заявлению разработчика, LossPlay идеально подойдет для перевода аудио в текст. Продукт, по функционалу, стоит на равное с профессиональными разработками, но имеет преимущество в меньшем расходе системных требований компьютера.

Бесплатные онлайн программы для перевода аудио в текст

Как уже упоминалось в статье, профессия по транскрибации, является востребованной. Безусловно, люди пытаются облегчить себе жизнь и пытаются создать онлайн программы — помощники, которые будут в автоматическом режиме, переводить аудио в текст.

Забегая вперед скажу, профессия не была бы на столько востребована, если подобные программы работали на 100%, но кое какие разработки, уже существуют и ими активно пользуются.

Настройка компьютера для транскрибации

Прежде чем начать автоматическую расшифровку в текст, нужно должным образом настроить компьютер.

В интернете достаточно статей, в которых предлагается использовать сторонние разработки по настройке аудиокарты. Возможно, для профессионалов это нужно, но по своему опыты, оказалось достаточно настроить встроенную аудиокарту должным образом.

У нас есть два варианта:

  1. Включить аудио файл и подставить к колонкам микрофон (дикость). Речь из колонок, будет попадать в онлайн программу и автоматически аудио, будет переводиться в текст.
  2. Настроить аудиокарту и подключить Стерео микшер, чтобы в онлайн программу, попадал звук из системы.

Первый вариант плох, потому что могут попадаться дополнительные отвлекающие шумы, программа их будет считывать, и в конце получится белиберда.

Во втором варианте, речь будет направляться с аудио файла, непосредственно в онлайн программу и восприниматься как есть. Кстати и в этом случае, не все гладко.

Открываем окно «Звук» в «Панели управления».

На вкладке «Воспроизведение», нужно установить по умолчанию то устройство, к которому подключены основные колонки.

Обратите внимание, у меня на скрине подключены и наушники (устройство связи по умолчанию) и колонки (устройство по умолчанию). Сделано это для того, чтобы я мог осуществлять транскрибацию, прослушивая файл через наушники.

Не знаю, может это только у меня, но если отключаю основные колонки, то звук перестает поступать в Стерео микшер и программы не могут обнаружить звуковой поток. Если кто разобрался более детально, пишите в комментариях.

Во вкладке «Запись», нас интересует «Стерео микшер», который нужно выбрать по умолчанию.

Обратите внимание!! Если вы не видите «Стерео микшер», нажмите на пустом месте окна правой кнопкой мыши и выберите пункт «Показать отключенные устройства».

Если вам, как к примеру мне, не нужны дополнительные подключения для вывода звука, то на этом настройка закончена. В моем случае, хотел чтобы звук продолжал идти и из колонок и из наушников.

Выбираем свойства «Стерео микшер`а» и переходим во вкладку «Прослушать». Здесь, в пункте «Воспроизводить с данного устройства», выберите наушники, либо то устройство на которое нужно вывести звук.

Проделав эту процедуру, мы без сторонних программ и драйверов, настроили прием аудио для перевода в текст, через системные устройства компьютера.

Google документы

На первое место поставлю google документы. Это обычный текстовый редактор, являющийся аналогом обычного Microsoft Word.

  1. Выбираем «Инструменты» → «Голосовой ввод» (или «Ctrl» + «Shift» + «S»). Активируется микрофон и сообщение о разрешении программы доступа к микрофону компьютера (разрешите доступ не меняя параметров (должны стоять по умолчанию)).
  2. Запустите в любом плеере или на YouTube интересующий ролик.
  3. Нажимаем на микрофон в Google документах. Если все настроено верно и Google документы увидят звуковой поток, начнется перевод аудио в текст. В противном случае, появится сообщение об отсутствующем звуке.

Лично мое мнение, может быть оно предвзятое или субъективное, но большего, для расшифровки аудио в текст не требуется.

  • Наиболее четко переводит аудио в текст, без пропусков.
  • Большой функционал для редактирования текста.
  • Невозможно синхронизировать аудио файл с началом расшифровки.

Голосовой блокнот Speechpad

Блокнот Spechpad, находится по адресу https://speechpad.ru/ . Работает по принципу, рассказанному выше. Включается аудио запись, блокнот начинает считывать речь и переводить ее в текст.

Преимущество данного блокнота, в том, что в настройках есть функция «Запускать синхронно с записью». Как это работает:

  1. Перейдите на сайт блокнота (кстати, чтобы не читать портянку текста, зарегистрируйтесь на их сайте).
  2. Нажимаем «Транскрибация».
  1. Панель «Транскрибация», выбираем интересующий медиа тип. В моем случае «Youtube video».
  2. В поле «Id файл для проигрывания», добавляем код видео с YouTube (к примеру, для адреса https://www.youtube.com/watch?v=Xihpth5vmmM, код Xihpth5vmmM).
  3. Устанавливаем флажок «Запустить синхронно с записью».
  4. Нажимаем «Включить запись».

Запустится ролик с ютуба, а Speechpad сразу начнет транскрибацию, переводя аудио в текст.

  • Синхронизация аудио файла с расшифровкой текста.
  • Регулировщик скорости воспроизведения.
  • Огромное количество настроек.
  • При переносе переведенной части текста к основному блоку, пропускаются некоторые слова.

Расшифровщик аудио Dictation.io, можно найти по адресу https://dictation.io/speech .

Для запуска транскрибации, достаточно запустить аудио файл и нажать кнопку «Start». По окончанию ролика, скопируйте результат в текстовый редактор для работы с ним.

  • Синхронизация аудио файла с началом расшифровки текста.
  • Копирование результата, производится по нажатию на одну клавишу.
  • Имеется огромное количество настроек.
  • Пока что не замечены.

Результаты онлайн перевода аудио в текст

В заключении к разделу, хотелось бы показать работу представленных онлайн программ — переводчиков аудио в текст. Для этого был взят одинаковый отрезок из сказки про трех поросят и вот что получилось.

Google документы

В далекие времена жили на свете 3 поросенка, они жили вместе со своей мамой в маленьком домике однажды пришла пора им покинуть момента, когда мама свинья подозвала их к себе и сказала.дорогие мои дети пришло время для вас выйти в большой мир и дети и начнете жить собственной жизнью, но не забывайте, что бы вы ни делали, делайте это на совесть вот лучший способ выжить.3 поросенка, ласково попрощались с мамой и отправились в путь.через какое то время они набрели на полено подходящего для того, чтобы построить домики.самый младший из поросят решил строить дом из соломы

В далекие времена жили на свете 3 поросенка они жили вместе со своей мамой в маленьком домике однажды пришла пора им покинуть мамино тогда мама свинья подозвала к себе и сказала дорогие мои дети пришло время для вас выйти в большой мир и дети и начнете жить собственной жизнью но не забывайте что бы вы ни делали делайте это на совесть вот лучший способ выжить 3 поросенка ласковый попрощались с мамой и отправились в путь через какое то время они набрели на полено подходящими для того чтобы построить домики самый младший из поросят решил строить дом из соломы

Онлайн расшифровщик Dictation.io

3 поросенка времена жили на свете 3 поросенка, они жили вместе со своей мамой в маленьком домике однажды пришла пора им покинуть мамино тогда мама свинья подозвала к себе и сказала. дорогие мои дети пришло время для вас выйти в большой мир и дети и начнете жить собственной жизнью но не забывайте что бы вы ни делали делайте это на совести вот лучший способ выжить 3 поросенка ласково попрощались с мамой и отправились в путь через какое то время они набрели на поле но подходящего для того чтобы построить домики самый младший из поросят решил строить дом из соломы

Главная проблема всех трех программ, отсутствие знаков препинания, но это решается путем редактирования полученной портянки текста.

Способы ускорить работу над расшифровкой

Имея огромный опыт в наборе текстов, для себя сделал следующие выводы как можно ускорить расшифровку аудио в текст.

  1. При уменьшении скорости воспроизведения ролика, транскрибация производится с наименьшими ошибками.
  2. Набирая текст вручную, идеально подходит схема: прослушал → запомнил → записал. Эта схема позволит не откладывать редактирование на потом, а сделать все сразу.
  3. Использование команд, помогающих добавлять часть текста. Представим себе, что в тексте, часто попадается слово «Транскрибация», добавляем его в команду и при помощи горящих клавиш выводим в нужных местах.
  4. Не важно набираете в ручную или при помощи онлайн программ, все правки и корректировки делам в самом конце.

Сервисы, которые бесплатно расшифруют запись интервью и голосовые сообщения в текст. В подборке отдельные программы и боты в социальных сетях. Будет полезно копирайтерам и журналистам.

Использовать голосовой набор не всегда удобно, если это не запросы в поисковики. В шумной обстановке не получается прослушать запись, некоторые люди в принципе лишены такой возможности. Если надиктованная информация нужна в печатном виде, войсы приходится переслушивать и перепечатывать, это тратит время и силы.

Зачем может понадобиться конвертировать аудио в текст:

  1. Расшифровать запись длинного интервью для статьи.
  2. Надиктовать себе идей, пока есть вдохновение.
  3. Понять, о чем говорят в голосовом сообщении, когда нет возможности послушать.
  4. Общаться с людьми с особенностями слуха.

Для расшифровки аудио в текст есть специальные сервисы, мы протестировали несколько и выбрали самые удачные. Всеми сервисами из подборки можно пользоваться бесплатно, но в некоторых нужно будет зарегистрироваться.

Сервисы для перевода речи в текст

Блокнот для речевого ввода

Блокнот переводит диктуемые слова в текст, транскрибирует аудиозаписи с голосом и видео с Ютуба.

Сервис автоматически расшифровывает произносимые слова по ходу надиктовки, причем умеет распознавать знаки препинания, если отметить пункт «Заменять слова пунктуации». Мы надиктовали ему «Привет восклицательный знак мы тестируем запятая как справляется сервис с расшифровкой текста точка» и так далее, самые часто употребляемые знаки он распознал, но не справился с многоточием, тире, скобками и кавычками.

Тест сервиса на знаки препинания

Транскрибирование текстов из загруженных аудиозаписей и из видео с Ютуба происходит в реальном времени при воспроизведении. Загружаем файл в сервис или указываем ID видео (символы после https://www.youtube.com/watch?v=), нажимаем «Включить запись».

Сервис распознает речь ведущего

Бесплатно сервис работает с транскрибированием онлайн без ограничений, а также с распознаванием голоса на аудио и видео не дольше 15 минут.

Платный формат дает интеграцию с Windows и Linux, позволяет расшифровывать медиафайлы длиной более 15 минут и обрабатывать файлы по нескольку штук одновременно.

Лучше всего Речевой блокнот справляется с расшифровкой голоса в реальном времени. Результат довольно чистый, но нужно привыкнуть называть все знаки препинания или расставлять их вручную при вычитке.

Инструмент полезен, когда нужно надиктовать себе материал для текста или в заметку, а на интервью его можно включить фоном, чтобы расшифровывал речь в реальном времени.

Расширение «Голосовой ввод текста» для Google Chrome

Попробуем надиктовать сообщение в ВКонтакте:

Открываем диалог, кликаем правой кнопкой мыши и выбираем расширение.

Выбор расширения по клику правой кнопкой

Ввод подсвечивается красным, в браузере появляется окно разрешения доступа к микрофону. Разрешаем доступ, диктуем сообщение, называя знаки препинания: «Настя запятая привет восклицательный знак как твои дела вопросительный знак», готовый текст отображается в поле ввода.

Готовый текст сообщения

Сложно привыкнуть диктовать знаки препинания, на их озвучивание уходит много времени, но зато не нужно расставлять запятые вручную.

Результат расшифровки зависит от дикции говорящего, но в целом расширение для ввода хорошо справляется.

Dragon Dictation

Программа для iOS, работает онлайн через iTunes Store. Удобно использовать на мобильном, чтобы надиктовывать на ходу замечания или идеи к новым статьям.

Расшифровка войса в программе

Программа работает бесплатно, но только на iOS.

Otter

Сервис для распознавания речи и расшифровки аудио или видео. Работает только с английским языком. Если не пропустить первые шаги настройки и прочитать сервису текст на экране, он запомнит ваш голос. Это позволит ему отделять ваши реплики от чужих в записях с несколькими собеседниками.

Прочитайте это сообщение, чтобы бот вас запомнил

Сервис транскрибировал фразу на английском

Фразу «расшифруй что-нибудь на русском» он распознал так:

Фразы на других языках сервис не понимает

Можно загрузить аудио или видео с английской речью, сервис выведет екст. Некоторые спорные моменты из-за произношения могут расшифровываться неправильно.

Сервис не распознал слово penguins

Программа бесплатна, она будет полезна, если вы работаете с англоязычными источниками.

Недавно передо мной встала задача: Перевести аудио и видео файлы в текст. Так как я никогда не занимался этим вопросом, то как всегда — залез в интернет и начал гуглить как же люди это делают. Ведь ни для кого ни секрет, что транскрибацией/транскрибированием занимаются многие люди и даже профессиональные компании, которые построили на этом бизнес.

Википедия нам выдает: Действие по записи транскрипции называется транскрибированием.

В каком то смысле передача звука и написание его это та же транскрипция, но нас здесь интересует не что такое транскрибирование, а как этим пользоваться в практических целях.

Для чего может понадобиться транскрибирование в печатный текст

Допустим у вас есть аудио запись семинара или аудиокнига, которую вы хотите сохранить в текстовом виде для более удобного поиска информации. Ведь в тексте всегда можно воспользоваться поиском и текст занимает значительно меньше места, чем аудио и видео.

У вас есть несколько путей:

  • обратиться в компанию и заплатить примерно 16 руб за минуту файла;
  • найти фрилансера, который вам все это сделает дешевле;
  • сделать самому вручную, прослушивая и печатая;
  • сделать самому, прослушивая и надиктовывая;
  • сделать самому с помощью специальных программ.

Так как делегировать другому вы не захотели, а оказались на этой странице, то я могу сделать вывод, что вам интересно подробно разобраться в процессе и сделать все самому. Каждый знает, что если хочешь сделать хорошо, сделай это сам.

Кстати, если вы все же выберете надиктовывать текст голосом, то в этой статье я как раз дам ответ как это лучше всего делать.

Какие способы существуют и какой лучше выбрать

Программные средства транскрибирования онлайн

Virtual Audio Cable

Я перерыл интернет и везде в основном советуют воспользоваться программой Virtual Audio Cable (инструкция как ей пользоваться ниже)

А что же предлагает нам данная программа и почему ее советуют? Ну вот представьте, что для того, чтобы голос был распознан, вам нужно сначала его воспроизвести, а потом в реальном времени передать в специальные транскрибаторы, которые и преобразуют звук в текст. Так вот если вы начнете включать звук через колонки и пытаться его передавать через микрофон, то будут огромные потери в качестве, так как у вас в комнате присутствуют шумы, вам нужно включать колонки на большую громкость. Микрофон может быть не самым лучшим. В итоге вы получите низкое качество из-за всех этих искажений. Качество будет идеальным, если вы сможете передать напрямую аудио или видео прямо в компьютере в транскрибатор. Как раз для этой цели и нужна программа Virtual Audio Cable.

Смысл ее работы в том, что она создает виртуальный кабель, с помощью которого, напрямую передает данные. Что нам и нужно!

Я попробовал сделать так как говорится в самом ролике и у меня получилось скачать программу, установить ее и сделать необходимые настройки. При включении всех настроек я понял, что у меня идет жуткое эхо и я целый час пытался разобраться почему у меня выдается дополнительный аудио канал.

Как сделать эмуляцию виртуального кабеля без программок

Сразу здесь выложу инструкцию как это сделать. Вам даже не потребуется устанавливать Virtual Audio Cable, так как можно обойтись простыми манипуляциями в настройках громкости. Сам я попробовал и мне понравилось, поэтому остановился на этом способе, так как он самый простой.

Нужно в настройках звука во вкладке запись включить стерео микшер и сделать его устройством записи по умолчанию. Таким образом звук сразу будет передаваться в компьютер и все так же останется воспроизведение через колонки. То есть вы сможете спокойненько слушать ваш файл и работать с ним. В видео много рассказывается о работе с сервисом «Блокнот для речевого ввода», о котором речь пойдет далее. Смотрите и обучайтесь.

Speechpad «Блокнот для речевого ввода» — сервис для надиктовки (транскрибирования текста)

Очень сильно хвалят вот этот сайт speechpad.ru так как он хорошо поддерживается, в нем есть все необходимые настройки.

В принципе разобраться с ним сможет любой за 10 минут, тем более, что там есть много инструкций. Хочу сказать свое мнение — мне он не подошел, так как когда идет транскрибация видео ролика, то существует буфер. Он длится примерно 20-30 секунд и видеоролик как бы перезагружается по истечение этого времени. И все было бы прекрасно, если бы перезагружаясь, ролик начинался с того места, на котором закончился, но он загружается на 1-2 секунды раньше и происходит повторение слов. Возможно это и не плохо, так как при перезагрузке может оборваться часть фразы, а потом она повторится и пойдет логично дальше, но для редактирования это ужасно неудобно. Нужно удалять повторы слов каждые 20 секунд и это отнимает много времени. Еще мне не понравилось качество. Конечно, в 95% сервис понимает речь, но вот эти 5% ошибок исправлять ой как не хочется. Порой даже не понимаешь что за слова он вставляет и откуда он их берет. Еще один минус в том, что если не успел сохранить текст или страница случайно перезагрузилась, то можно потерять весь результат, а если текст длинный, то придется начинать сначала и это ооочень раздражает.

В целом очень хороший сервис, многие пользуются и многие остаются довольны, особенно если речь четкая, так вообще никаких проблем не будет. Сервис бесплатный и внутри есть много инструментов, думаю, что вам понравится. Я попробовал этот сервис и продолжил искать дальше, более удобный инструмент.

Realspeaker — программа для транскрибирования и расшифровки

Нашел еще такую программу realspeaker почитал что о ней пишут, и подумал, что это скорее для тех, кто профессионально надиктовывает тексты. Программа для перевода звука в текст пригодится, если вы работаете транскрибатором и зарабатываете на этом.

Что она умеет:

  • Голос в текст может обработать любой длины;
  • Транскрибирует аудио и видео в текст;
  • Большой объем данных и глубокое обучение;
  • Облачные вычисления и API по запросу;
  • Ввод данных в любой редактор или сайт;
  • Мульти-платформенность и мультиязычность;
  • Расшифровка с учетом акцентов и диалектов;
  • Простая и доступная система оплаты.

Из всего этого перечня следует, что если вы зарабатываете на текстах, то она вам возможно поможет. Ну а для меня она не подходит, так как платная и я пошел искать дальше.

Google Translate — просто переводчик и не только

Этого монстра знают если не все, то почти все! Находится он по адресу translate.google.ru . Все очень просто, заходите на сайт, нажимаете на микрофон и запись и мгновенная транскрибация пошла. Далее можно просто копировать и вставлять куда нужно. Вот такой вот переводчик на английский или переводчик звука в текст.

Как известно Гугл — очень хорош. Это компания, которая постоянно совершенствует свои технологии в создании интернет-поиска, облачных вычислений и дополнительные сервисы. Совсем недавно они анонсировали сервис по переводу голоса в текст, а сегодня он уже является самым популярным. Почему? Потому что все телефоны — андроиды начали использовать голосовые команды и вообще это очень удобно. А гугл изначально уже встроен во телефоны.

И вот еще почему, потому, что гугл делает свои продукты на высоком уровне. Что все это значит? Да то, что при нажатии на одну кнопку вы получаете максимально продуманный и качественный сервис без лишнего мусора. Гугл вложил огромные деньги в свои распознаватели голоса и вывел свой продукт на мировой рынок, и теперь на всех языках (в том числе русский язык) можно транскрибировать свой голос и переводить в любой другой язык.

В общем Google Translate наиболее качественно захватывает речь из звука и этим уже можно пользоваться, расставив знаки препинания. Пользуйтесь на здоровье, к хорошему быстро привыкаешь.

Из минусов могу отметить, что на данный момент можно записывать текстовый документ только 5000 символов длиной. Если вам необходимо надиктовать или распознать несколько предложений, то вам этот инструмент подойдет из-за своей простоты. Но если у вас более длинные тексты и вы хотите иметь возможность с Гугловской точностью транскрибировать текст любой длины то вам больше подойдет следующий инструмент.

Google Docs — самый универсальный инструмент перевода звука в текст онлайн

Почему этот инструмент лучше? Это же просто онлайн документ. Или не просто?


Вся фишка в том что он:

  • позволяет сохранять текст моментально и он никуда не исчезнет;
  • может записывать бесконечно, хоть на ночь поставьте аудиокнигу, на утро проснетесь и все будет ок;
  • использует голосовой модуль google, а он хорош (про это уже говорилось выше);
  • позволяет прямо там отредактировать и сохранить;
  • работает онлайн на любых устройствах.

В связи со всем вышеперечисленным, на мой взгляд это самый адекватный и удобный инструмент, который можно использовать для транскрибации звука в текст.

Как им пользоваться?

  1. Заходите в docs.google.com
  2. перед вами открывается список документов
  3. создаете новый документ
  4. жмете инструменты -> голосовой ввод или Ctrl+Shift+S
  5. нажимаете на микрофон

Всё! Транскрибация аудио в текст пошла! Из всех инструментов мне этот понравился больше всего. Никаких отвлекающих штуковин, там просто и понятно.

Чтобы сделать перевод в текст аудио файла или видео с youtube, просто сначала запустите файл, а потом перейдите в окошко документа и нажмите запись. Ждите и смотрите, как на ваших глазах происходит чудо. Потом останется отредактировать и оформить и текст готов!

Чтобы добавить в текст знаки препинания, используйте эти команды:

  • «точка»;
  • «запятая»;
  • «восклицательный знак»;
  • «вопросительный знак»;
  • «новая строка»;
  • «новый абзац».

Примечание. Ввод знаков препинания поддерживается на английском, испанском, итальянском, немецком, русском и французском языках.

Как и чем пользоваться если нужно надиктовывать голосом?

Рассмотренные выше варианты программных средств абсолютно так же подойдут для голосового ввода. Единственное отличие будет в том, что нужно будет вместо микшера использовать запись через микрофон.

  • Можно просто надиктовывать свои мысли, чтобы не терять времени на писанину и потом быстренько отформатировать;
  • Можно надеть наушники и слушая, воспроизводить так как вам больше нравится в микрофон;
  • Можно пользоваться специальными приложениями на телефоне.

Нужно надиктовать быстро, а под рукой только мобильный телефон?

Если у вас iPhone

Можете скачать бесплатно приложение Dragon Dictation

Очень удобно, когда нет под рукой компьютера и вам в голову пришли мысли, которые кровь из носа нужно записать, иначе пройдет 2 минуты и вы забудете, что хотели сказать. К сожалению это бывает очень часто и как хорошо, что мы теперь можем носить сотик вездеи с легкостью перевести голос в текст. Пришла мысль — запиши аудио. Это быстро и удобно.

Если у вас Android

Можете скачать бесплатно приложение Speechlogger

Хорошее приложение, которое поможет андроид-манам. Если вы журналист, домохозяйка, писатель и просто развивающийся человек, то обязательно используйте дополнительные возможности, чтобы сократить время и не забыть самое важное, пользуйтесь мобильными приложениями для записи текста голосом.

Кстати там еще можно знаки препинания расставлять, что облегчит дальнейшее редактирование. Все приложения отлично понимают русский язык.

Выводы:

  • Для того, чтобы передавать звук в компьютер лучше всего пользоваться настройками windows и встроенным микшером.
  • Для того, чтобы транскрибировать более качественно лучше всего пользоваться Google Docs с включенной настройкой голосовой ввод.
  • Для того, чтобы делать переведение с мобильника — скачайте приложения

Хорошей вам транскрибации, надеюсь вам поможет мой опыт. Кстати, напишите в комментариях, что вы об этом думаете, какие средства сами используете. Может есть еще лучше способ затранскрибировать и если вы о нем знаете, то обязательно расскажите, чтобы помочь тем, кто ищет решение этого вопроса.

Транскрибация — это расшифровка аудио — и видео материалов, их содержимое, переведённое в текст. То, о чём говорится в таких материалах, дословно или с определённой степенью цензуры отображается в текстовом документе. В этой статье будем говорить о способах упрощения транскрибации на компьютере. Казалось бы, что сложного в процессе расшифровки? Берёшь удобный медиаплеер, периодически приостанавливаешь запись и переписываешь услышанное.

1. Сложности транскрибации

Но нет, всё не так просто. Иначе заинтересованные в такой услуге лица не искали бы удалённых сотрудников на биржах фриланса.

Во-первых, не каждый сможет выполнить такую работу. Нужен выдержанный, усидчивый, способный к длительной концентрации внимания человек. Для справки: на расшифровку 1-го часа записи уходит порядка 5-ти часов.

Во-вторых, не всегда для расшифровки поставляется качественный исходник, а это, соответственно, усложняет процесс транскрибации. В таких случаях исполнитель должен быть ещё и технически подкован, чтобы решить вопрос с устранением помех записи.

Транскрибация – процесс ресурсоёмкий. Постоянное переключение внимания от одной задачи к другой, от одного программного окна к другому быстро истощает силы. Можно ли как-то упростить этот процесс? Увы, идеального способа автоматизации этого процесса пока что не существует. Справиться с такой задачей может только человек. Но его работу можно упростить с помощью отдельных программных средств.

Для удобства работы с двумя программными окнами – медиаплеера и текстового редактора – в среде современных версий Windows можно прибегнуть к функции эффективного задействования пространства экрана Snap . Окно плеера крепим к одной части экрана, окно редактора – к другой.

Совет: при расшифровке аудиоматериалов лучше использовать плееры с крупными элементами управления, как, например, приложение «Музыка Groove» , поставляемое вместе с Windows 10.

При транскрибации видеозаписей можно задействовать компактный режим штатного видеоплеера Windows 10 – приложения «Кино и ТВ» . В компактном режиме плеер превращается в закреплённое поверх других окон мини-окошко с ограниченным перечнем элементов управления. Но в этом перечне будут все нужные для работы кнопки – приостановка видео, шаги назад и вперёд.

Совет: если исходником является видео, чтобы не отвлекаться на видеоряд, можно извлечь звук в аудиофайл . И работать уже с ним. Такие операции умеют проводить программы-медиаконвертеры, к примеру, бесплатные Convertilla и Freemake Video Converter . А программы типа Adobe Audition или её бесплатного аналога Audacity помогут улучшить качество звучания, если исходное оставляет желать лучшего.

4. Сторонние видеоплееры

Сторонние видеоплееры для Windows, такие как, например, KMPlayer , GOM , VLC , предложат больший функционал, который, в частности, может быть задействован при транскрибации:

Настраиваемые шаги вперёд и назад;
Регулировка скорости воспроизведения;
Установка закладок;
Настраиваемая панель элементов управления;
Настраиваемые горячие клавиши.

Совет: некоторые исполнители предпочитают не приостанавливать исходник, а замедлять его воспроизведение для написания под диктовку. Это не лучшая идея в целях оптимизации транскрибации. При написании диктанта важны паузы, разграничивающие даже части предложений. Плюс к этому, наше сознание входит в резонанс с замедленным воспроизведением, а это, соответственно, тормозит работу ума и набор текста.

5. Программа Express Scribe

– программа, специально созданная для транскрибации. В верхней части её интерфейса находится поле для добавления медиафайлов, в нижней – проигрыватель и текстовый редактор. В числе её преимуществ:

Единое окно для работы с исходниками и текстом;
Поддержка большого перечня медиаформатов;
Функции замедления и ускорения проигрываемых файлов;
Перемотка;
Улучшение качества звучания;
Горячие клавиши, а также возможность задействования для отдельных функций ножных педалей геймерского руля;
Сохранение исходников и их расшифровки как проектов программы;
Экспорт набранного текста в Microsoft Word .

Недостатки – отсутствие поддержки русского языка интерфейса и активное навязывание создателями программы платных её редакций при работе с бесплатной.

6. Сервисы голосового ввода данных

Веб-сервисы, предлагающие возможность голосового ввода данных – пожалуй, самый оптимальный способ упрощения транскрибации. Особенно подойдёт тем, чья скорость печати оставляет желать лучшего. Принцип работы здесь прост: запоминаем отрывки текста, повторяем их в микрофон и попутно проводим коррекцию текста – исправляем ошибки и вставляем знаки препирания.

Механизмом распознавания речи оснащён веб-сервис . Создаваемые в этом онлайн-редакторе документы можно надиктовывать с использованием инструмента «Голосовой ввод» .

Инструмент поддерживает огромный перечень языков, включая русский. Однако он не предусматривает настройку автоотключения ввода данных. Если не говорить в микрофон пару секунд, голосовой ввод отключается. И его нужно постоянно включать вручную.

Другой веб-сервис – «Голосовой блокнот Speechpad.ru» — будет в разы эффективнее, поскольку это узкопрофильный проект, и распознавание речи является его основным направлением. Для ввода голосовых данных в форме сервиса необходимо нажать кнопку включения записи. Текст правится в результирующем поле. Внизу этого поля присутствует кнопка «+Транскрибация» .

Она добавляет в форму сервиса возможность воспроизведения аудио- и видео исходников для работы в одном программном окне. Например, чтобы сделать расшифровку ролика на YouTube , в форме сервиса необходимо выбрать его медиатип и вставить в соответствующее поле ID (часть веб-адреса после знака «=») .

Сервис кроме русского поддерживает ещё несколько других языков.

Совет: умеет распознавать два знака препинания – точку и запятую. Их можно проговаривать.

Недостаток такого способа транскрибации – несовершенство механизма распознавания человеческой речи. Сколькие из мобильных пользователей, вдоволь наигравшись с «Ок, Google» при вводе поисковых запросов, пришли к тому, что проще отыскать что-то по старинке, с помощью клавиатуры. Какой бы сервис ни использовался, всё равно в процессе работы придётся делать паузы и отслеживать распознанный текст мелкими блоками.

7. Автоматизация транскрибации

Процесс голосового ввода данных при транскрибации можно упростить по максимуму, настроив системное звучание в качестве источника звукозаписи и, соответственно, убрав из цепочки действий проговаривание услышанного в микрофон. Естественно, в случае с проблемными исходниками такой вариант не подойдёт. В итоге получим нечитаемую белиберду, которую проще будет переписать заново, чем редактировать. Если же запись более-менее качественная, попробовать стоит.

Вызываем контекстное меню на значке звука в области задач Windows, выбираем . В появившемся окошке с помощью опций в контекстном меню отключаем микрофон и включаем стереомикшер.

Однако процесс всё равно нужно контролировать: вникать в суть информации, периодически приостанавливать воспроизведение для коррекции расшифровки, проставлять знаки препирания.

8. И самое главное …

Осуществлять транскрибацию на ноутбуке с его хрипящим динамиком проблематично. Однако в особо сложных случаях не поможет и хорошая аудиосистема. Для постоянной работы по расшифровке аудио лучше обзавестись наушниками. А если работа проводится путём распознавания речи, возможно, стоит присмотреть себе качественную гарнитуру Hands Free .