亚洲精品中文免费|亚洲日韩中文字幕制服|久久精品亚洲免费|一本之道久久免费

      
      

            <dl id="hur0q"><div id="hur0q"></div></dl>

                SSML(語音合成標記語言)初學者指南

                SSML(語音合成標記語言)初學者指南

                本文同步發(fā)布在個人博客 SSML(語音合成標記語言初學者指南 – 碼微

                什么是 SSML?

                SSML 代表語音合成標記語言。它使你能夠?qū)I合成語音(稱為文本到語音或 TTS)進行微調(diào)和調(diào)整,以使它們聽起來更自然或糾正常見的錯誤發(fā)音。可以把它想象成 網(wǎng)頁中的CSS,但用于語音應(yīng)用程序和語音系統(tǒng)。你不僅可以使用 SSML 使語音合成系統(tǒng)以不同的方式發(fā)音,還可以添加諸如中斷和暫停之類的內(nèi)容,以及加快、減慢或調(diào)整語音的音高等,以改變節(jié)奏和使講話聽起來更自然。

                為什么需要 SSML?

                當你通過 TTS 系統(tǒng)收聽書面對話時,聽起來并不總是你想象的或你想要的。有時聽起來可能不夠人性化或不夠自然。有時聽起來很刺耳。SSML 是幫助你解決此問題的重要工具。例如:

                • TTS系統(tǒng)可能會誤讀你的品牌名稱
                • 它可能說得不夠清楚
                • 也許它有點太快了,讓所說的一時難以消化
                • 你可能想要強調(diào)句子的特定部分。

                這就是 SSML 有用的地方。

                如何使用 SSML?

                要在對話系統(tǒng)中使用 SSML,只需像使用任何其他代碼一樣標記對話

                例如,在網(wǎng)頁設(shè)計中,要創(chuàng)建一段文本,你可以使用如下所示的“p”標簽來標記你的代碼:

                這是一段文字。

                對于對話系統(tǒng),同樣的原則也適用。

                從文本到語音系統(tǒng)中讀取的所有口語對話都必須包含 標簽,如下所示:

                嗨,我叫 VUX。

                標簽告訴 TTS 系統(tǒng),其中包含的單詞是要說出來的。

                將對話包裝在語音標簽中后,你可以在 標簽中使用許多其他標簽來創(chuàng)建你想要的效果。

                SSML 標簽示例

                可用于操作 TTS 系統(tǒng)的常見 SSML 標簽有:

                • audio:將音頻文件嵌入到對話中。非常適合添加耳塞之類的東西
                • break : 插入一個指定秒數(shù)或毫秒數(shù)的暫停
                • emphasis: 把標記的詞說得更大更慢
                • lang:指定語音應(yīng)該說的預(yù)期語言
                • p:段落標記,在標記文本之后添加暫停以表示段落的結(jié)尾
                • phoneme :允許你通過將語音字母表中的單個音素組合在一起來構(gòu)造單詞的特定發(fā)音
                • prosody:讓你調(diào)整文本的音量、速率(速度)和音高
                • s:在句末添加停頓。類似于 p 標簽,只是停頓更短
                • say-as:讓你更改某些單詞、短語或數(shù)字的發(fā)音方式。例如,如果你希望將數(shù)字 1234 讀取為“一、二、三、四”或“一千二百三十四”,以及許多其他選項。
                • speak:根元素。所有口語文本都包含在此標簽中。
                • sub : 用一個詞替換另一個詞。例如,將書面單詞“eg”發(fā)音為“for example”
                • voice:指定 TTS 語音(通常在 Alexa 技能中用于調(diào)用 Amazon Polly 語音而不是內(nèi)置的 Alexa 語音)
                • w:用于將單詞的發(fā)音從現(xiàn)在變?yōu)檫^去的原則,例如“read”和“read” ie “I’m going to read something” vs “I read a book tomorrow”,以及許多其他選項

                一些語音助手和語音合成系統(tǒng)具有其平臺獨有的特定標簽。不過,從廣義上講,大多數(shù)系統(tǒng)都允許使用標準標簽,但你應(yīng)該始終與你的供應(yīng)商核實,以確保這一點。

                如何在語音合成系統(tǒng)中使用 SSML 標簽

                在對話中插入特定的 SSML 標簽很簡單。

                假設(shè)你希望合成語音在句子結(jié)尾暫停片刻。只需輸入句號. 將自行完成此操作,無需任何特定標記。一個 . 將插入 500 毫秒到 1 秒之間的暫停,具體取決于系統(tǒng)。

                但是,假設(shè)你想進行調(diào)整以增加停頓的長度以創(chuàng)造戲劇效果。在這里,你將在對話中你希望系統(tǒng)暫停的位置插入一個 標記:

                嗨,我叫 VUX,這是今天的新聞。 天氣預(yù)備…

                或者你可能想放慢對話的速度。你可以試試:

                嗨,我叫 VUX。

                嵌套 SSML 標簽

                就像使用 HTML 一樣,你可以將 SSML 標簽相互嵌套,以將許多對話操作拼接在一起。

                這有點像在 Web 開發(fā)中在

                標記中插入 標記:

                世界震撼人心。在這里查看。

                假設(shè)你想提高單個單詞的音高,并讓該單詞以法國口音發(fā)音,你可以使用以下內(nèi)容:

                Bonjour!

                這些操作適用于標準 TTS 語音,但不適用于神經(jīng)網(wǎng)絡(luò)語音。

                測試和預(yù)覽 SSML 編輯

                創(chuàng)建這些SSML代碼后,需要驗證更改是否達到要求,有許多工具可執(zhí)行此操作,包括:

                • Amazon Polly
                • Google Cloud
                • TopVoiceApps

                在哪里可以找到完整的 SSML 參考指南?

                有關(guān)所有標簽類型的代碼示例的完整 SSML 參考指南,請嘗試:

                (亞馬遜)[https://developer.amazon.com/en-US/docs/alexa/custom-skills/speech-synthesis-markup-language-ssml-reference.html](谷歌)[https://cloud.google.com/text-to-speech/docs/ssml](微軟)[https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-synthesis-markup?tabs=csharp]

                請注意,這些都是基于各自的系統(tǒng)下編寫的。這意味著你可能會發(fā)現(xiàn)某些標簽在你選擇的 TTS 系統(tǒng)中不起作用

                SSML 的局限性

                盡管 SSML 很棒,但它并不完美:調(diào)整音素以完美地發(fā)音品牌名稱。以適當?shù)耐nD水平來微調(diào)節(jié)奏,使聲音聽起來更自然。這一切都需要工作。

                使用 SSML 操作通用 TTS 并不總是有好的結(jié)果

                通用語音使 TTS 系統(tǒng)難以針對某些用例進行更改。例如,假設(shè)你正在設(shè)計一個語音應(yīng)用程序,并且你希望你的聲音聽起來超級生動和快樂,這有點像試圖將吉他變成鋼琴,因為 通用 TTS 聲音是為通用目的而構(gòu)建的。

                為什么 SSML 不能隨心所欲地改變聲音的聲音

                使用 SSML 時,你實際上所做的是向 TTS 系統(tǒng)提供有關(guān)它應(yīng)該如何操作其產(chǎn)生的音頻的說明。你不是在“調(diào)整聲音”。

                例如,如果你使用 標簽來減慢語速;從技術(shù)上講,為了減慢聲音,TTS 系統(tǒng)所做的只是延長它產(chǎn)生的音頻的時間,以使每個樣本更長。

                為什么音頻比特率很重要

                CD(光盤,還記得嗎?)可以以每秒 44,100 位的速度播放音頻文件。即 44,100 個單獨的數(shù)據(jù)位在一秒鐘內(nèi)連續(xù)擊中你的耳朵。

                自然,對于人耳,你無法區(qū)分每個單獨的位,因此聽起來像是穩(wěn)定的音頻流。

                它的工作方式與視頻相同。每秒 24 幀的視頻只是連續(xù) 24 張靜止圖像。你的眼睛無法處理足夠快的圖像變化,所以它看起來像一個視頻。音頻也是如此。

                TTS 系統(tǒng)的比特率是多少?

                TTS 系統(tǒng)的“比特率”可以低至每秒 200 比特,或高達 1,200。低比特率很有幫助,因為它有助于將音頻快速返回到語音應(yīng)用程序,并且盡可能少地使用互聯(lián)網(wǎng)帶寬。

                這樣做的一個原因是確保系統(tǒng)在互聯(lián)網(wǎng)連接下降時仍然可以說話,另一個原因是它可以足夠快地提供音頻以模擬與用戶的真實對話。人類往往會在 200 毫秒內(nèi)做出回應(yīng)。如果語音應(yīng)用程序的響應(yīng)時間比響應(yīng)時間長得多,那么用戶體驗就會受到影響,就好像系統(tǒng)沒有聽到你的聲音,無法回答你或者不夠聰明,無法快速思考。

                由于 TTS 系統(tǒng)通常會生成低比特率(低“質(zhì)量”)音頻文件以在語音用戶界面中為用戶提供服務(wù),因此應(yīng)用 SSML 標記(音頻操作)最終會導致質(zhì)量更低的音頻。

                這就是為什么你的 SSML 聽起來并不總是很好的原因。

                在使用 SSML 標簽來減慢語音的速率(速度)的示例中;當你放慢音頻速度時,你會將低比特率音頻文件的時間拉伸到斷點。它聽起來很扭曲,因為它被 扭曲了。它極大地拉伸了音頻,以至于在這些“位”之間產(chǎn)生了很小的沉默間隙。然后,它將音頻向下移動幾個鍵,因此聽起來“更深”(如果不降低音高,你無法減慢一段音頻)。這只是 SSML 的一部分。那是一個標簽。許多 SSML 標簽或多或少都存在這種限制,這就是為什么 SSML 不能用于大型語音操作的原因。

                你應(yīng)該使用 SSML 做什么

                SSML 適于對語音進行微調(diào),如果試圖過多地操縱聲音,很可能你始終無法讓它聽起來正常

                鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
                用戶投稿
                上一篇 2022年6月22日 06:20
                下一篇 2022年6月22日 06:20

                相關(guān)推薦

                • 王源全新創(chuàng)作專輯B面三首音源正式解鎖 《客廳狂歡》MV同步上線

                  11月24日,歌手王源全新創(chuàng)作專輯《客廳狂歡》之B面「閃爍」釋出三首音源,專輯同名新歌《客廳狂歡》MV也于同日發(fā)布。「閃爍」篇中,《客廳狂歡》書寫了客廳里隨意暢想的時刻,輕松、愉悅…

                  2022年11月25日
                • vivoTWS 3系列耳機發(fā)布 TWS 3 Pro支持動態(tài)空間音頻

                  近日,vivo正式推出vivoTWS 3系列真無線Hi-Fi耳機,均基于高通超低功耗音頻平臺打造,其中,vivoTWS 3 Pro搭載第一代高通S5音頻平臺,vivoTWS 3則采…

                  2022年11月24日
                • 淘寶直播開通后帶貨鏈接怎么做(淘寶直播需要開通淘寶店鋪嗎)

                  直播帶貨無論是對于商家來說還是主播收益都是非??捎^的,所以不少平臺都有直播帶貨功能,一些小伙伴也想加入淘寶直播,那么淘寶直播開通后帶貨鏈接怎么做?下面小編為大家?guī)硖詫氈辈ラ_通后帶…

                  2022年11月24日
                • 免費清理c盤的軟件(清理c盤空間不影響系統(tǒng))

                  電腦用久了慢如龜速,還卡頓,這最大的原因啊就是C盤空間不足造成的。 即使電腦配置再好,或者硬盤再快,如果長時間沒有打掃C盤,打開文件或者穩(wěn)定之類的,都卡得讓人頭大。 這時候呢不要去…

                  2022年11月24日
                • ipad怎么刷機(ipad怎么刷機重新激活)

                  今天小編給各位分享ipad怎么刷機的知識,其中也會對ipad怎么刷機重新激活進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧! ipad密碼忘了怎么刷機? ip…

                  2022年11月24日
                • 快手限流多久能解除(快手限流什么意思)

                  我相信很多人都看中了快手平臺的商機,都爭先恐后地想要搶占機會,可一些人剛剛作出一點成績,就被降權(quán)了,自己也不知道什么原因。所以今天就來聊聊快手賬號降權(quán)操作分享,趕快來看看避免違規(guī)!…

                  2022年11月23日
                • win11怎么退回win10 win11怎么還原到win10

                  許多朋友在更新完win11后發(fā)現(xiàn)使用起來不方便,而且有不少漏洞和bug,有時候還會出現(xiàn)卡頓,因此想要還原到win10系統(tǒng),但是不知道是否可以還原,下面就跟著小編一起來操作一下吧。 …

                  2022年11月22日
                • Win11 22H2再出新問題Bug:無法彈出USB設(shè)備

                  作為Windows 11的首次大更新,在Win11 22H2發(fā)布后并沒有帶來預(yù)想的場景,各種問題頻現(xiàn)成為了一種常態(tài)。 近日有消息稱,Win11 22H2存在一個占用沖突Bug,當用…

                  2022年11月22日
                • 分享做網(wǎng)絡(luò)營銷技術(shù)的2種方法(網(wǎng)絡(luò)營銷技術(shù)有哪些)

                  如何借助互聯(lián)網(wǎng)賺錢?相信這是很多人的真實想法,掌握了網(wǎng)絡(luò)營銷的技術(shù),即使你不工作,也能獲得穩(wěn)定的收入來維持你的生活狀態(tài),當然假設(shè)你已經(jīng)有了一份固定的正常工作,那么掌握了網(wǎng)絡(luò)營銷的技…

                  2022年11月22日
                • 微信收款音箱免費送(微信收款語音播報怎么設(shè)置)

                  我們常常聽到“支付寶到賬一百萬元”的語音提醒!那么,微信也具備此功能,具體設(shè)置方法為: 打開“微信”,點擊“我”,點擊“服務(wù)”,點擊“收付款”,點擊“二維碼收款”,點擊“收款小賬本…

                  2022年11月22日

                聯(lián)系我們

                聯(lián)系郵箱:admin#wlmqw.com
                工作時間:周一至周五,10:30-18:30,節(jié)假日休息