科技巨頭:布局已實、用戶尚虛
自2011年蘋果開發(fā)第一個智能語音助手Siri之后,Google、微軟、亞馬遜、百度、Facebook陸續(xù)加入陣營,這些智能助手各自嫁接在智能移動設(shè)備終端上。以構(gòu)建生態(tài)為目標(biāo),各巨頭紛紛向第三方開放者開放其技術(shù)平臺。Google與亞馬遜還有自己的智能音箱設(shè)備,搶占家居場景。以亞馬遜2014年推出Echo為最早。而亞馬遜和微軟則有結(jié)合智能電視一起使用的機(jī)頂盒或游戲機(jī)設(shè)備。
智能音箱為典型的家居場景終端,根據(jù)海外近期的消費(fèi)者調(diào)查,亞馬遜Echo、和Google Home的用戶期望用途最主要的是播放音樂、音頻讀物,其次是智能家居控制管理和游戲娛樂。
綜合看來,亞馬遜在智能語音上的平臺化布局最為成熟。根據(jù)調(diào)查機(jī)構(gòu)CIRP的報告, 截至2016.11月,亞馬遜推出的Echo系列智能音箱產(chǎn)品在美累計銷量已突破510萬臺。根據(jù)Voice.a(chǎn)i提供的相關(guān)數(shù)據(jù),自2016年6月以來在Alexa上新增的語音服務(wù)應(yīng)用從1000個左右迅速增長到7000個。雖然數(shù)量龐大,但許多應(yīng)用少人問津,其中僅有不到1/3的應(yīng)用有一個用戶反饋。
作為美國最大的電子書零售商,亞馬遜有天然優(yōu)勢銷售音頻讀物。隨著Alexa和Echo的用戶增長,亞馬遜于2016下半年開始力推音頻讀物與播客,9月亞馬遜將音頻讀物和播客服務(wù)加入到了Prime會員權(quán)益中。
目前,亞馬遜Alexa APP Store內(nèi)占比最多的三類是新聞類應(yīng)用、在線游戲、教育參考等。
然而目前在國內(nèi)并沒有亞馬遜Alexa和Echo,也沒有中文語音版。中國的開發(fā)者尚在期待成熟的中文生態(tài)平臺。鑒于亞馬遜對中國市場過去表現(xiàn)出的“延時”但未放棄的態(tài)度,或許普通消費(fèi)者可以期待若干年后歡迎Alexa到中國,但對開發(fā)者來說恐怕就等不起了。還是來看一下中國智能語音的本土情況吧。
技術(shù)解決方案:新老玩家趨勢演變
目前在國內(nèi),除了百度度秘及其技術(shù)開放平臺外,提供智能語音技術(shù)解決方案的公司主要有:科大訊飛、思必馳、云知聲、三角獸、極限元、捷通華聲、出門問問、海知智能,等。從成立時間來看,其中有已經(jīng)上市的老玩家也有成立不久的新玩家。其背后不乏來自阿里、谷歌的資金支持,創(chuàng)始人里也有從微軟、百度智能語音領(lǐng)域出來的核心技術(shù)人員。
就目前看來,國內(nèi)擁有智能語音技術(shù)的玩家目前大多以開展2B業(yè)務(wù)為主,少數(shù)開發(fā)有2C的智能終端。各個玩家大多橫跨多個行業(yè)提供解決方案,雖然實際服務(wù)的領(lǐng)域每家各有不同的勢力范圍,但從戰(zhàn)略上來說,各家的焦點(diǎn)都比較模糊。從新老玩家的戰(zhàn)略定位上的差異,以及老玩家近幾年的業(yè)務(wù)變化情況來看,智能語音技術(shù)解決方案提供方的發(fā)展呈現(xiàn)了一下幾個趨勢:
1.行業(yè)的延伸。服務(wù)行業(yè)從電信、銀行、政務(wù)領(lǐng)域延伸到醫(yī)療、教育、硬件終端領(lǐng)域。
2.從自動客服處理、語音合成服務(wù)開始試著向溝通商務(wù)、客戶激勵更高級的價值訴求升級。
3.從定制化開發(fā)模式開始轉(zhuǎn)向平臺式的互聯(lián)網(wǎng)架構(gòu)。一種是通過開發(fā)硬件設(shè)備來做平臺;另一種將解決方案本身平臺化的,例如成立時間最晚的兩家公司海知智能、三角獸都有這樣的規(guī)劃。
終端設(shè)備:延伸或升級
在語音智能終端方面,我們可以分兩類來看。智能語音設(shè)備目前從應(yīng)用場景與使用形式上可分為幾類:手機(jī)配件,例如智能耳機(jī);可穿戴延伸,例如可語音控制的智能手表;車載延伸,例如語音控制車載導(dǎo)航等;家電升級,如智能音箱、語音控制智能電視、機(jī)頂盒;獨(dú)立形式,這里指那些以智能語音為主要形式開發(fā)的全新硬件產(chǎn)品,智能語音教育產(chǎn)品、智能玩具等。
各類智能語音設(shè)備產(chǎn)品中,一部分以開發(fā)平臺化產(chǎn)品,意圖占領(lǐng)一定場景下終端入口的產(chǎn)品,如車載場景、家居場景。另一部分,在一些垂直服務(wù)領(lǐng)域的智能語音硬件產(chǎn)品也有部分嘗試,如兒童教育類智能硬件、酒店服務(wù)咨詢機(jī)器人,等等。這部分產(chǎn)品以鎖定某一特定人群的特定需求為目標(biāo)。
因大多數(shù)終端設(shè)備都是原有設(shè)備的延伸或升級,而語音操控只涉及人機(jī)界面交互體驗,本質(zhì)上并不提供新的服務(wù)或產(chǎn)品,競爭主要在各大消費(fèi)數(shù)碼品牌間展開。部分智能語音技術(shù)解決方案提供方因有其技術(shù)優(yōu)勢,也將產(chǎn)業(yè)觸角延伸到硬件設(shè)備上。其中,較受關(guān)注的是以中國的Amazon Echo為定位的科大訊飛的智能音箱系列產(chǎn)品。不過或許就像如今再難找到不能上網(wǎng)的電視機(jī)一樣,未來配上語音操控也將成為數(shù)碼產(chǎn)品、車載系統(tǒng)的功能標(biāo)配。
由于音箱、耳麥與音頻播放最為緊密,使用語音操控的智能音箱與智能耳麥成為這一領(lǐng)域最具代表性的硬件終端。科大訊飛、小米、聯(lián)想、海爾都已陸續(xù)推出了通過語音控制的智能音箱產(chǎn)品,恐怕他們的意圖都不是賣產(chǎn)品而是做生態(tài)。
從智能音箱的發(fā)布方來看,大致分為幾類:消費(fèi)數(shù)碼強(qiáng)勢品牌、智能語音技術(shù)解決方案提供方、傳統(tǒng)音頻設(shè)備商、數(shù)碼音頻服務(wù)應(yīng)用、其他智能硬件初創(chuàng)公司。
事實上,較早進(jìn)入市場的是一些期望抓住新一波熱點(diǎn)的智能硬件初創(chuàng)公司,然而這類開發(fā)者無論是技術(shù)實力、產(chǎn)品運(yùn)營經(jīng)驗還是產(chǎn)業(yè)鏈資源都較為有限,往往容易淪為探路先驅(qū);而其他幾類發(fā)布方借用自身特定優(yōu)勢,如已建立起的強(qiáng)勢品牌效應(yīng)、已積累的粉絲群等,隨后推出的智能音箱市場表現(xiàn)往往會更好。
Strategy Analytics的最新數(shù)據(jù)稱,2016年智能音箱全球出貨量達(dá)到590萬臺,預(yù)測有望在2022年達(dá)到10倍增長。
作為手機(jī)配件的耳麥順利成長的成為各手機(jī)品牌延伸推出虛擬語音助理的載體。目前,Apple在2016年分別推出了配有智能語音助理的升級后的Earpod有線版耳機(jī)和高端無線版Airpod;Sony也于2016年9月發(fā)布了Xperia Ear藍(lán)牙智能耳機(jī)。然而似乎嘗鮮者使用后對語音助手耳機(jī)的體驗好評度較低。另一家開發(fā)智能耳機(jī)的名為Vinci的創(chuàng)業(yè)公司2017年初完成了數(shù)千萬元A輪融資,在2015年,Vinci曾獲得數(shù)千萬人民幣的preA,千萬天使輪投資,目前產(chǎn)品正在以129美元預(yù)售。
服務(wù)應(yīng)用層:有待挖掘
就2B的應(yīng)用領(lǐng)域來看,從功能上分主要是三類:智能客服、語音識別、語音合成。
智能客服領(lǐng)域目前主要涉及電信、金融、政務(wù)等客服呼叫量密集的行業(yè)。在有能力提供智能語音技術(shù)解決方案的公司中,有很大一部分提供呼叫中心智能客服解決方案,如科大訊飛、云知聲、捷通華聲。除此之外,還有定位聚焦在智能客服領(lǐng)域的其他創(chuàng)業(yè)公司。
語音識別和語音合成主要處理語音與文本之間的互轉(zhuǎn)。所涉及領(lǐng)域通常在語音數(shù)據(jù)密集但又有電子化存檔需求的行業(yè),如法院、醫(yī)療、教育、媒體。以醫(yī)療行業(yè)為例,近幾年醫(yī)療行業(yè)正在進(jìn)行數(shù)字化升級,個人醫(yī)療記錄電子化的數(shù)據(jù)處理需求比以往有所增強(qiáng),智能語音解決方案提供方紛紛開始涉足醫(yī)療行業(yè),外科醫(yī)生、放射科醫(yī)生、牙科醫(yī)生在手術(shù)等一些情況下不便手寫病情,在將噪麥克風(fēng)與語音識別技術(shù)的幫助下,來提升病情記錄的效率。
就2C的應(yīng)用場景來看,可以分為車載場景、家居場景、其他移動場景,這三類場景下有一些通用的應(yīng)用領(lǐng)域,也有部分有場景特殊性的應(yīng)用領(lǐng)域。見下圖。
就目前來看,已有的以音頻服務(wù)為主要服務(wù)內(nèi)容的APP與“聽”場景天然匹配,首先登陸了智能語音2C領(lǐng)域,如音樂、音頻讀物、播客類的APP,其中包括喜馬拉雅FM、酷狗音樂、得到APP等都已進(jìn)入各類智能語音終端。
總體上來說,國內(nèi)2C應(yīng)用目前還處在“新瓶裝舊酒”的狀態(tài),一部分切合度較高的既有移動APP轉(zhuǎn)化成語音操控模式即可進(jìn)入這一市場。而更緊密圍繞智能語音交互,充分利用其交互體驗的其他創(chuàng)新服務(wù)和產(chǎn)品還非常少。
把握智能語音交互體驗的核心特性,結(jié)合場景特性、人群特性等因素,筆者認(rèn)為可以從以下5個不同視角來挖掘可創(chuàng)新或升級的應(yīng)用領(lǐng)域:
1、既有音頻內(nèi)容服務(wù)。也就是目前加載在智能語音設(shè)備終端上最多的應(yīng)用。
2、可轉(zhuǎn)音頻的資訊服務(wù)。對許多資訊類服務(wù)來說,原本可能是文本形式,但能夠比較容易的轉(zhuǎn)化為語音模式。尤其是一些快捷查詢類資訊,例如天氣查詢、交通查詢等。
3、基于可穿戴設(shè)備的服務(wù)。可穿戴設(shè)備原本是為移動場景所設(shè)計,加載在上面的服務(wù)對便捷性都有較高的要求,且可穿戴設(shè)備往往操控界面有限,如能轉(zhuǎn)化成語音模式將有可能帶來更好的體驗。
4、備忘記錄預(yù)約類服務(wù)。在個人日程管理領(lǐng)域,也是移動應(yīng)用APP興起時最早繁榮的領(lǐng)域之一,以往主要依靠文本輸入,在一些特定環(huán)境下,文本輸入不便可采用語音輸入模式。事實上,這類應(yīng)用很多都有語音輸入插件,但既往的產(chǎn)品設(shè)計模式并未考慮語音操控管理的便捷性,或需要一些升級優(yōu)化。
5、面向文本交互不便的人群。除了在駕駛狀態(tài)、做家務(wù)時、某些工作場合等場景下,雙手被占用,文本交互不便。兒童、老人、其他障礙人群,也有可能對文本交互模式的使用不適應(yīng),這類群體特別需要語音控制模式。