Хобрук: Ваш путь к мастерству в программировании

Есть ли способ заставить Google Text to Speech произносить текст в течение желаемого времени?

Я просмотрел документацию Google Text to Speech SSML. https://developers.google.com/assistant/actions/reference/ssml#prosody

Итак, есть тег под названием <Prosody/>, который согласно документации W3 Specification может принимать атрибут с именем duration, который представляет собой значение в секундах или миллисекундах для желаемого времени, необходимого для чтения содержащегося текста.

Итак, <speak><prosody duration='6s'>Hello, How are you?</prosody></speak> должно пройти 3 секунды для преобразования текста в речь Google, чтобы произнести это! Но когда я пробую это здесь, https://cloud.google.com/text-to-speech/, он не работает, а также я пробовал его в остальном API.

Не учитывает ли преобразование текста в речь Google атрибут продолжительности? Если нет, то есть ли способ добиться того же?


  • Обратите внимание, что спецификации W3 10 лет и, вероятно, она устарела. В самом первом абзаце документа Google говорится, что в настоящее время поддерживаются атрибуты rate, pitch и volume. 31.05.2020
  • @MrLister Спасибо, мое плохое, извини, что я пропустил эту строчку. Есть идеи, как этого можно достичь? В настоящее время я экспериментирую с pydub, но столкнулся с проблемой с высотой голоса. 31.05.2020
  • Нет, извините, я не очень разбираюсь в SSML, поэтому ничем не могу вам помочь. Все, что я могу сказать, это то, что вы не можете сделать это так, как пытались, потому что это просто не реализовано, а не потому, что вы делаете это неправильно! Так что я боюсь, что вам придется провести дополнительные исследования в Интернете. 31.05.2020
  • Спасибо @MrLister, проведу исследование и изучу другие альтернативы. 31.05.2020

Ответы:


1

Я знаю два способа решить эту проблему:

  • Первый вариант: вызовите API Google дважды: используйте первый вызов для измерения времени разговорного звука, а второй вызов - для соответствующей настройки параметра скорости.

    • Pros: Better audio quality? (this is subjective and depends on taste as well as the application's requirements)
    • Минусы: удваивает стоимость и время обработки.
  • Второй вариант: постобработка звука с помощью специальной библиотеки, например ffmpeg.

    • Pros: Cost effective and can be fast if implemented correctly.
    • Минусы: требуется некоторое знание концепций и использования библиотеки постобработки аудио (хотя становиться экспертом не нужно).
27.07.2020
Новые материалы

Решения DBA Metrix
DBA Metrix Solutions предоставляет удаленного администратора базы данных (DBA), который несет ответственность за внедрение, обслуживание, настройку, восстановление базы данных, а также другие..

Начало работы с Блум
Обзор и Codelab для генерации текста с помощью Bloom Оглавление Что такое Блум? Некоторые предостережения Настройка среды Скачивание предварительно обученного токенизатора и модели..

Создание кнопочного меню с использованием HTML, CSS и JavaScript
Вы будете создавать кнопочное меню, которое имеет состояние наведения, а также позволяет вам выбирать кнопку при нажатии на нее. Финальный проект можно увидеть в этом Codepen . Шаг 1..

Внедрите OAuth в свои веб-приложения для повышения безопасности
OAuth — это широко распространенный стандарт авторизации, который позволяет приложениям получать доступ к ресурсам от имени пользователя, не раскрывая его пароль. Это позволяет пользователям..

Классы в JavaScript
class является образцом java Script Object. Конструкция «class» позволяет определять классы на основе прототипов с чистым, красивым синтаксисом. // define class Human class Human {..

Как свинг-трейдеры могут использовать ИИ для больших выигрышей
По мере того как все больше и больше профессиональных трейдеров и активных розничных трейдеров узнают о возможностях, которые предоставляет искусственный интеллект и машинное обучение для улучшения..

Как построить любой стол
Я разработчик программного обеспечения. Я люблю делать вещи и всегда любил. Для меня программирование всегда было способом создавать вещи, используя только компьютер и мое воображение...