以往,我們了解到一些世界領(lǐng)先的語音合成技術(shù),它們研發(fā)出來的“語音合成助手”軟件可以完美的完成語音合成工作。而最近阿里也推出了一項(xiàng)新語音合成技術(shù),錄音10分鐘即可定制專屬“AI聲音”。
7月10日,阿里巴巴發(fā)布新一代語音合成技術(shù)KAN-TTS,稱可大幅提高合成語音與真人發(fā)聲的相似度,并將語音合成定制成本降低10倍以上。該技術(shù)由達(dá)摩院機(jī)器智能實(shí)驗(yàn)室自主研發(fā)。
阿里方面稱,當(dāng)前業(yè)界商用系統(tǒng)的合成語音與原始音頻錄音的接近程度通常在85%-90%之間,而基于KAN-TTS技術(shù)的合成語音可將該數(shù)據(jù)提高到97%以上。
KAN-TTS深度融合了目前主流的端到端TTS技術(shù)和傳統(tǒng)TTS技術(shù),從多個(gè)方面改進(jìn)了語音合成,有望通過圖靈測(cè)試。阿里利用Multi-SpeakerModel與Speaker-awareAdvancedTransferLearning相結(jié)合的方法,將語音合成定制成本降低10倍以上,周期壓縮3倍以上。也就是說,用1小時(shí)有效錄音數(shù)據(jù)和不到兩個(gè)月制作周期,就能完成一次標(biāo)準(zhǔn)TTS定制。
此外,這使得普通用戶定制“AI聲音”的門檻更低。只需手機(jī)錄音十分鐘,就能獲得與錄制聲音高度相似的合成語音。
基于KAN-TTS的語音合成技術(shù)現(xiàn)在已經(jīng)向B端客戶開放商用,它能基于5大場(chǎng)景(通用、客服、童聲、英文和方言)、提供34種不同聲音,而且能夠讓企業(yè)與個(gè)人定制其專屬“AI聲音”,該技術(shù)目前已經(jīng)用在了高德地圖、天貓精靈、夸克瀏覽器等應(yīng)用中。
語音合成是通過機(jī)械的、電子的方法產(chǎn)生人造語音的技術(shù)。TTS技術(shù)(又稱文語轉(zhuǎn)換技術(shù))隸屬于語音合成,它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)。
和語音合成一樣,語音識(shí)別技術(shù)也是實(shí)現(xiàn)人機(jī)語音通信,建立一個(gè)有聽和講能力的口語系統(tǒng)所必需的關(guān)鍵技術(shù),越來越多的公司和行業(yè)都在向這方面靠攏。2017年,全球的語音識(shí)別軟件市場(chǎng)規(guī)模就已經(jīng)達(dá)到11億美元,隨著AI等各種技術(shù)的成熟,對(duì)語音識(shí)別的市場(chǎng)需求也在逐年提升。預(yù)計(jì)到2025年,全球語音識(shí)別市場(chǎng)的整體規(guī)模將達(dá)到69億美元。