Я просмотрел документацию Google Text to Speech SSML. https://developers.google.com/assistant/actions/reference/ssml#prosody
Итак, есть тег под названием <Prosody/>
, который согласно документации W3 Specification может принимать атрибут с именем duration, который представляет собой значение в секундах или миллисекундах для желаемого времени, необходимого для чтения содержащегося текста.
Итак, <speak><prosody duration='6s'>Hello, How are you?</prosody></speak>
должно пройти 3 секунды для преобразования текста в речь Google, чтобы произнести это! Но когда я пробую это здесь, https://cloud.google.com/text-to-speech/, он не работает, а также я пробовал его в остальном API.
Не учитывает ли преобразование текста в речь Google атрибут продолжительности? Если нет, то есть ли способ добиться того же?