Я ищу какое-нибудь простое в установке программное обеспечение для преобразования текста в речь для Ubuntu, которое звучит естественно. Я установил Festival, Gespeaker и т.д., Но ничто не звучит очень естественно. Все это очень синтетично и трудно для понимания.
Очень минималистичный TTS, звучащий лучше, чем espeak или mbrola (на мой взгляд). Некоторая информация здесь.
Я не понимаю, почему pico2wave, по сравнению с espeak или mbrola, редко обсуждается. Он маленький, но звучит действительно хорошо (естественно). Без изменений вы услышите естественно звучащий женский голос.
И ... по сравнению с Mbrola, он распознает единицы измерения и говорит на них правильно! Например:
С Pico и espeak весело и легко работать, но они не так уж хороши.Фестивальные голоса по умолчанию также не так хороши. Однако Festival - это речевой фреймворк, основанный на схеме, в котором ряд исследователей создали гораздо лучшие подключаемые голоса. Вы можете легко превзойти качество pico2wave в стандартной версии Ubuntu, потому что один из этих голосов доступен в виде готового пакета.
Чтобы фестиваль звучал естественно, вот что нужно сделать:
sudo apt-get install festivalsudo apt-get install festvox-us-slt-htsfestival -ifestival> (voice_cmu_us_slt_arctic_hts) festival> (SayText "Don't hate me, I'm just doing my job!")
Вы можете сделать это из командной строки, используя -b (или --batch) и заключая каждую команду в одинарные кавычки:
festival -b '(voice_cmu_us_slt_arctic_hts)' \ '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'
Вы можете получить другие неплохие голоса из репозитория Nitech, но их установка требует особых усилий, а пути по умолчанию изменены, поэтому ссылки на имена файлов в файлах схемы в комплекте, возможно, потребуется отредактировать вручную для работы в стандартной Ubuntu.
Я считаю, что нашел лучшее бесплатное программное обеспечение для TTS, используя расширение Google Chrome под названием "SpeakIt". Это работает только в браузере Chrome для меня на Ubuntu. По какой-то причине он не работает с Chromium. SpeakIt поставляется с двумя женскими голосами, которые звучат очень реалистично по сравнению со всем остальным. Если вы выполняете поиск в интернет-магазине Chrome, используя "TTS" в качестве запроса, в расширениях Chrome перечислены по крайней мере еще четыре мужских и женских голоса.
Использование: Для использования на веб-сайте. вы выделяете текст, который хотите прочитать, и либо щелкаете правой кнопкой мыши и нажимаете "SpeakIt", либо щелкаете значок SpeakIt, закрепленный на верхней панели Chrome.
У пользователей Firefox также есть два варианта. В рамках дополнений Firefox выполните поиск TTS и вы должны найти "Нажмите Говорить", а также "Текст в голос". Голоса не так хороши, как голоса Chrome SpeakIt, но определенно пригодны для использования.
Расширение SpeakIt использует технологию iSpeech, и по цене 20 долларов в год сайт может конвертировать текст в аудиофайлы MP3. Вы можете вводить текст, URL-адреса, RSS-каналы, а также такие документы, как TXT, DOC и PDF, и выводить их в формате MP3. Вы можете создавать подкасты, вставлять аудио и т.д. Вот ссылка, и образец их аудиозаписи (не знаю, как долго продлится ссылка).
Обновление со страницы проекта (2016): Этот проект в настоящее время не поддерживается и останется таковым в обозримом будущем.
Из-за отсутствия лучшей альтернативы я написал сценарий bash который взаимодействует с сценарий на perl от Михала Фапсо чтобы предоставить TTS через Google Translate. Из описания проекта:
Цель состоит в том, чтобы предоставить простой в использовании интерфейс для преобразования текста в речь с помощью системы синтеза речи Google. Запасной вариант с использованием pico2wave автоматически обеспечивает синтез TTS в случае отсутствия подключения к Интернету.
В нынешнем виде оболочка поддерживает чтение из стандартного ввода, обычных текстовых файлов и выделение X (выделенный текст).
Основными особенностями являются:
онлайн-синтез TTS с помощью Google translate
автономный синтез TTS с помощью pico2wave
поддерживает множество различных языков
может читать из CLI, текстовых файлов и выделенного текста
поддерживает чтение выделенного текста с фиксированным форматированием (например, PDF-файлы)
Установка и использование задокументированы на страница проекта.
Я искал высоко и низко для преобразования текста в речь для Ubuntu с высоким качеством. Его нет. Мои голосовые связки парализованы, поэтому мне понадобился TTS, чтобы добавить голосовые инструкции к моему Видеоролики Ubuntu. Вы можете получить коммерческое высококачественное программное обеспечение для преобразования текста в речь Linux здесь. Это просто очень дорого. В итоге я купил Natural Reader для Windows (не работает в Ubuntu под управлением Wine) за 40 долларов. Может быть, позже я получу Linux-версию.
Я проводил исследования в области наилучшего звучания и легкой настройки текста на речевые голоса. Ниже приведен список того, что я считал топ-5 продуктов в порядке качества звука. Большинство веб-сайтов, связанных с этим продуктом, имеют интерактивную демонстрацию, которая позволит вам принять собственное решение.
Я нахожу голоса Nitech HTS на фестивале очень естественными и успокаивающими по сравнению с любыми другими голосами, которые я слышал. Смотрите эту ссылку о том, как настроить Nitech и другие звуки с помощью festival. Я не нашел хорошего графического интерфейса, который я мог бы использовать для настройки этих голосов, но настройка их через festival.scm все еще работает. Это сообщение очень старое, и вы, возможно, захотите найти фактический каталог установки с помощью команды "locate festival".
Вы можете использовать LibreOffice в сочетании с инструментами SVOX (pico), установив Расширение "Чтение текста" и вы получаете "графический интерфейс" для этого превосходного программного обеспечения TTS:
Настройка параметров расширения для чтения текста с Инструменты - Дополнения - Выбор чтения.... Воспользуйся /usr/bin/python в качестве внешней программы. Выберите параметр командной строки, который включает маркер (PICO_READ_TEXT_PY), возможно, вы захотите поэкспериментировать с некоторыми из них.
Теперь вам нужно только выделить текст в LO Writer, Calc, Impress или Draw и щелкнуть по значку, добавленному в качестве панели инструментов (счастливое лицо с шариком).
gTTS, библиотека Python и инструмент CLI для взаимодействия с API преобразования текста в речь Google Translate. Пишет устно mp3 данные в файл, файлоподобный объект (bytestring) для дальнейшей обработки звука или stdout.
Аферы: Только для CLI. Необходимо быть в Сети, так как для этого требуется запросить общедоступную открытую конечную точку Google.
sudo -H pip install gTTS # Install
Использование
gtts-cli 'hello' --output hello.mp3gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -
sudo apt-get install gcc make pkg-config automake libtool libasound2-dev git clone https://github.com/MycroftAI/mimic.git # take a while cd mimic ./dependencies.sh --prefix="/usr/local" # take a while ./autogen.sh ./configure --prefix="/usr/local" make # take a while make check
Вот что я сделал, чтобы иметь чистая естественная речь для pdf и других текстовых файлов (другие решения не являются естественными или являются просто платными услугами). На самом деле это обходной путь с использованием chromium или chrome, но работает быстро и легко.
Устанавливать Говори! расширение на вашем chrome или chromium.
Устанавливать Программа просмотра PDF-файлов если вы используете chromium (в Chrome уже есть бесплатный просмотрщик pdf), установите флажок "Разрешить в режиме инкогнито" и "Разрешить доступ к URL-адресам файлов" в настройках расширений chromium.
Перетащите ваш PDF-файл в браузер.
Теперь выделите какой-нибудь текст, щелкните правой кнопкой мыши и выберите SpeakIt! таким образом, вы можете слушать чистый естественный текст в речь.
Есть также способы открыть другие файлы, например .doc и .txt в chrome и сделайте то же самое. Есть и другие расширения для Chrome, которые просматривают PDF-файлы, проверьте, подходит ли оно вам больше. Кроме того, вы можете загружать любые тексты на Google Диск и использовать SpeakIt! чтобы прочитать его для вас.Другое расширение под названием "Speak text" работает таким же образом и поддерживает естественную речь.