Естественное преобразование текста в речь?

yodo.im · 02.Июнь.2022 14:45:38

Я ищу какое-нибудь простое в установке программное обеспечение для преобразования текста в речь для Ubuntu, которое звучит естественно. Я установил Festival, Gespeaker и т.д., Но ничто не звучит очень естественно. Все это очень синтетично и трудно для понимания.

Есть какие-нибудь рекомендации?

Plat0n · 02.Июнь.2022 14:53:08

SVOX pico2wave

sudo apt install libttspico-utils

Очень минималистичный TTS, звучащий лучше, чем espeak или mbrola (на мой взгляд). Некоторая информация здесь.

Я не понимаю, почему pico2wave, по сравнению с espeak или mbrola, редко обсуждается. Он маленький, но звучит действительно хорошо (естественно). Без изменений вы услышите естественно звучащий женский голос.

И ... по сравнению с Mbrola, он распознает единицы измерения и говорит на них правильно!
Например:

2°C → два градуса
2 м → два метра
2 кг → два килограмма

После установки я использую его в скрипте:

#!/bin/bashpico2wave -w=/tmp/test.wav "$1"aplay /tmp/test.wavrm /tmp/test.wav

Затем запустите его с нужным текстом:

<scriptname>.sh "hello world"

или прочитать содержимое всего файла:

<scriptname>.sh "$(cat <filename>)"

Это все для того, чтобы иметь легкий, стабильно работающий TTS на Ubuntu.

Melnik_Dan · 02.Июнь.2022 15:01:36

С Pico и espeak весело и легко работать, но они не так уж хороши.Фестивальные голоса по умолчанию также не так хороши. Однако Festival - это речевой фреймворк, основанный на схеме, в котором ряд исследователей создали гораздо лучшие подключаемые голоса. Вы можете легко превзойти качество pico2wave в стандартной версии Ubuntu, потому что один из этих голосов доступен в виде готового пакета.

Чтобы фестиваль звучал естественно, вот что нужно сделать:

sudo apt-get install festivalsudo apt-get install festvox-us-slt-htsfestival -ifestival> (voice_cmu_us_slt_arctic_hts) festival> (SayText "Don't hate me, I'm just doing my job!")

Вы можете сделать это из командной строки, используя -b (или --batch) и заключая каждую команду в одинарные кавычки:

festival -b '(voice_cmu_us_slt_arctic_hts)' \    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Вы можете получить другие неплохие голоса из репозитория Nitech, но их установка требует особых усилий, а пути по умолчанию изменены, поэтому ссылки на имена файлов в файлах схемы в комплекте, возможно, потребуется отредактировать вручную для работы в стандартной Ubuntu.

Danil4ik · 02.Июнь.2022 15:10:05

Говори!

Я считаю, что нашел лучшее бесплатное программное обеспечение для TTS, используя расширение Google Chrome под названием "SpeakIt". Это работает только в браузере Chrome для меня на Ubuntu. По какой-то причине он не работает с Chromium. SpeakIt поставляется с двумя женскими голосами, которые звучат очень реалистично по сравнению со всем остальным. Если вы выполняете поиск в интернет-магазине Chrome, используя "TTS" в качестве запроса, в расширениях Chrome перечислены по крайней мере еще четыре мужских и женских голоса.

Использование: Для использования на веб-сайте. вы выделяете текст, который хотите прочитать, и либо щелкаете правой кнопкой мыши и нажимаете "SpeakIt", либо щелкаете значок SpeakIt, закрепленный на верхней панели Chrome.

У пользователей Firefox также есть два варианта. В рамках дополнений Firefox выполните поиск TTS и вы должны найти "Нажмите Говорить", а также "Текст в голос". Голоса не так хороши, как голоса Chrome SpeakIt, но определенно пригодны для использования.

Расширение SpeakIt использует технологию iSpeech, и по цене 20 долларов в год сайт может конвертировать текст в аудиофайлы MP3. Вы можете вводить текст, URL-адреса, RSS-каналы, а также такие документы, как TXT, DOC и PDF, и выводить их в формате MP3. Вы можете создавать подкасты, вставлять аудио и т.д. Вот ссылка, и образец их аудиозаписи (не знаю, как долго продлится ссылка).

Alexandra_S · 02.Июнь.2022 15:18:34

Простой Google™ TTS

Обновление со страницы проекта (2016): Этот проект в настоящее время не поддерживается и останется таковым в обозримом будущем.

Из-за отсутствия лучшей альтернативы я написал сценарий bash который взаимодействует с сценарий на perl от Михала Фапсо чтобы предоставить TTS через Google Translate. Из описания проекта:

Цель состоит в том, чтобы предоставить простой в использовании интерфейс для преобразования текста в речь с помощью системы синтеза речи Google. Запасной вариант с использованием pico2wave автоматически обеспечивает синтез TTS в случае отсутствия подключения к Интернету.
В нынешнем виде оболочка поддерживает чтение из стандартного ввода, обычных текстовых файлов и выделение X (выделенный текст).

Основными особенностями являются:

онлайн-синтез TTS с помощью Google translate
автономный синтез TTS с помощью pico2wave
поддерживает множество различных языков
может читать из CLI, текстовых файлов и выделенного текста
поддерживает чтение выделенного текста с фиксированным форматированием (например, PDF-файлы)

Установка и использование задокументированы на страница проекта.

Я был бы рад, если бы вы попробовали. Сообщения об ошибках и любые другие отзывы добро пожаловать!

Sinitsa · 02.Июнь.2022 15:27:02

Я искал высоко и низко для преобразования текста в речь для Ubuntu с высоким качеством. Его нет. Мои голосовые связки парализованы, поэтому мне понадобился TTS, чтобы добавить голосовые инструкции к моему Видеоролики Ubuntu. Вы можете получить коммерческое высококачественное программное обеспечение для преобразования текста в речь Linux здесь. Это просто очень дорого. В итоге я купил Natural Reader для Windows (не работает в Ubuntu под управлением Wine) за 40 долларов. Может быть, позже я получу Linux-версию.

Anna4ka · 02.Июнь.2022 15:35:31

Я проводил исследования в области наилучшего звучания и легкой настройки текста на речевые голоса. Ниже приведен список того, что я считал топ-5 продуктов в порядке качества звука. Большинство веб-сайтов, связанных с этим продуктом, имеют интерактивную демонстрацию, которая позволит вам принять собственное решение.

Неоспеич
иВона
Акапела
AT&T Естественные голоса
Голоса CereProc

Savva_P · 02.Июнь.2022 15:43:57

Я нахожу голоса Nitech HTS на фестивале очень естественными и успокаивающими по сравнению с любыми другими голосами, которые я слышал. Смотрите эту ссылку о том, как настроить Nitech и другие звуки с помощью festival. Я не нашел хорошего графического интерфейса, который я мог бы использовать для настройки этих голосов, но настройка их через festival.scm все еще работает. Это сообщение очень старое, и вы, возможно, захотите найти фактический каталог установки с помощью команды "locate festival".

Igor_V · 02.Июнь.2022 15:52:27

Объедините инструменты SVOX (pico) с LibreOffice:

Инструменты SVOX (pico) просты в установке и обеспечивают хорошее качество голоса в Ubuntu. Установите его:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Вы можете использовать LibreOffice в сочетании с инструментами SVOX (pico), установив Расширение "Чтение текста" и вы получаете "графический интерфейс" для этого превосходного программного обеспечения TTS:

Настройка параметров расширения для чтения текста с Инструменты - Дополнения - Выбор чтения.... Воспользуйся /usr/bin/python в качестве внешней программы. Выберите параметр командной строки, который включает маркер (PICO_READ_TEXT_PY), возможно, вы захотите поэкспериментировать с некоторыми из них.

Теперь вам нужно только выделить текст в LO Writer, Calc, Impress или Draw и щелкнуть по значку, добавленному в качестве панели инструментов (счастливое лицо с шариком).

Ermak_G · 02.Июнь.2022 16:00:53

gTTS, Преобразование текста в речь Google

gTTS, библиотека Python и инструмент CLI для взаимодействия с API преобразования текста в речь Google Translate. Пишет устно mp3 данные в файл, файлоподобный объект (bytestring) для дальнейшей обработки звука или stdout.

Аферы: Только для CLI. Необходимо быть в Сети, так как для этого требуется запросить общедоступную открытую конечную точку Google.

sudo -H pip install gTTS  # Install

Использование

gtts-cli 'hello' --output hello.mp3gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

Документация и дополнительные примеры

Другие

^{Некоторые из них уже упоминались}

Подражать. Установка:

  sudo apt-get install gcc make pkg-config automake libtool libasound2-dev  git clone https://github.com/MycroftAI/mimic.git # take a while  cd mimic  ./dependencies.sh --prefix="/usr/local" # take a while  ./autogen.sh  ./configure --prefix="/usr/local"  make # take a while  make check

Эспик + Gespeaker (графический интерфейс) (Исходный код Gespeaker)
Аферы: Старый и уродливый
```
  sudo apt install espeak gespeaker
```
Браузер Firefox
- Google Translate, ImTranslator, Словарь, TTS от Smart Link Corporation
Хром/Храбрый/Хром
- Преобразование текста в речь, повышающее производительность
- Говори!

MariV · 02.Июнь.2022 16:09:21

Вот что я сделал, чтобы иметь чистая естественная речь для pdf и других текстовых файлов (другие решения не являются естественными или являются просто платными услугами). На самом деле это обходной путь с использованием chromium или chrome, но работает быстро и легко.

Устанавливать Говори! расширение на вашем chrome или chromium.
Устанавливать Программа просмотра PDF-файлов если вы используете chromium (в Chrome уже есть бесплатный просмотрщик pdf), установите флажок "Разрешить в режиме инкогнито" и "Разрешить доступ к URL-адресам файлов" в настройках расширений chromium.
Перетащите ваш PDF-файл в браузер.
Теперь выделите какой-нибудь текст, щелкните правой кнопкой мыши и выберите SpeakIt! таким образом, вы можете слушать чистый естественный текст в речь.

Есть также способы открыть другие файлы, например .doc и .txt в chrome и сделайте то же самое. Есть и другие расширения для Chrome, которые просматривают PDF-файлы, проверьте, подходит ли оно вам больше. Кроме того, вы можете загружать любые тексты на Google Диск и использовать SpeakIt! чтобы прочитать его для вас.Другое расширение под названием "Speak text" работает таким же образом и поддерживает естественную речь.

Kuze4ka · 02.Июнь.2022 16:17:48

Возможный дубликат Как я могу установить и использовать программное обеспечение для преобразования текста в речь?