智能語音助手加速發展將成為新的用戶入口

一、智能語音助手加速發展 技術驅動是主因

智能語音助手成為2017年CES和MWC熱點之一,內置智能語音助手的產品覆蓋多個領域、多個品牌的多類產品,例如福特汽車、惠而浦、LG等家電廠商的洗衣機、電冰箱、電烤箱等家用電器,LG家庭機器人和華為智能手機等,智能語音助手儼然成為諸多智能產品的核心配置。智能語音助手在2016年呈現了加速發展之勢,體現在以下方面:

智能語音以智能家居做為切入點快速發展。蘋果公司早在2011年就發佈了智能語音助手,但其快速發展是以2016年亞馬遜Alexa的快速發展為標誌,一是銷量迅速增長。亞馬遜旗下內置Alexa的語音購物助手Echo客戶滲透率已由2%提升至5%,截至2016年年底,亞馬遜共賣出600萬臺Amazon Echo設備[1]。二是智能語音助手功能急速完善。Alexa在2014年最初發布時只有13個內嵌的技能,現在這項功能已經兼容7000款應用,包括連接Uber、Twitter等應用程序。用戶可以通過Echo的語音識別功能,操控任何一項具有聯網功能的設備,比如電燈、電視、空調等等。三是生態快速擴建。2015年12月,英特爾與亞馬遜聯合宣佈,雙方未來將在一系列智能家庭項目上合作,並計劃開發一個採用英特爾芯片、搭載亞馬遜Alexa虛擬助理的智能語音架構。汽車生產商福特在本屆CES上也宣佈與亞馬遜合作,未來車主將能夠在福特的車輛上體驗Alexa語音服務,實現聲控購物、搜索導航,甚至車主在家就可以通過語音指令啟動引擎、鎖定或解鎖車門。LG、GE等眾多企業都與亞馬遜達成協議,將自家產品內嵌Alexa。

深度學習算法助力語音識別技術提升是智能語音助手快速發展的主要原因。近兩年,深度學習算法得到快速發展,其成果率先應用於語音識別等領域,推動其取得突破性進展。2016年,《麻省理工科技評論》將語音識別和自然語言理解相結合,評為2016年十大突破技術。應用於語音識別的深度學習算法的卷積神經網絡層級(CNN),從最初的8層,到19層、22層、乃至152層的網絡結構,而隨著網絡結構的加深,語音識別的錯誤率也從2012年的16.4%逐步下降到3.57%[2]。許多公司的語音識別系統語音識別正確率超過90%,在很多場合的已經超過人類。

二、智能語音助手將成為新的用戶入口

語音將成為主流人機交互方式之一。語音交互方式將人們的雙手從觸摸屏解放出來,減少人們在數據輸入上花費的時間。但語音交互並不適用於所有場景,例如公共場所跟手機對話是不禮貌的。這時通過屏幕交互可能比語音更方便。較適合語音應用的設備包括家居和汽車,這也是亞馬遜Alexa雖然比蘋果Siri推出晚,卻能取得更快增長的原因之一。

當前的各種智能語音交互助手,只是虛擬個人助理(VPA)的雛形,VPA將具備完善的私人助理功能,成為用戶連接服務的節點,提供無所不在的服務。VPA將與眾多第三方app程序交互,用戶需要某類服務時均可告知VPA,VPA可搜索並決定調用哪款app提供服務,單獨app將從桌面移至後臺,成為VPA的一個子服務;VPA還具有學習能力,根據歷史數據掌握用戶的偏好、習慣等,對用戶需求做出預判,提供符合用戶個性特點的不斷優化的服務。

三、巨頭加快展開智能語音助手生態佈局

巨頭已悉數入場,爭搶智能語音交互新入口。蘋果是發展智能語音助手的先鋒,於2011年在iPhone中內置了智能語音助手產品Siri。谷歌2012年發佈了名為Google now的智能語音產品,並於2016年推出演進產品Google Assistant。亞馬遜於2014年推出內置語音助手Alexa的無線音箱產品。微軟發佈智能語音助手時間相對較晚,其智能語音助手產品Cortana於2015年與新的Windows 10操作系統一同發佈。Facebook於2015年推出智能語音助手服務M,內置AI技術,並有一個人工團隊支撐。百度也於2015年發佈名為Duer的智能語音助手產品。三星2016年收購了智能語音助手技術公司Viv,並計劃於2017年推出相關產品。這些廠商均擁有一個主導的生態,例如電子商務,搜索引擎,智能手機,這些都提供了大量的數據來支撐這些具體平臺的智能語音助手。大量用於“學習”的數據,使得AI更有效率,使得推薦和定位更加細緻入微。

亞馬遜暫時領先發展,未來競爭格局存在變數。亞馬遜搭載Alexa無論從銷量、功能、生態等方面,均領先於蘋果和谷歌。然而,設備仍然是智能語音助手成功的關鍵,智能語音助手需要有足夠大的設備平臺作為分發接口,提供隨時隨地、無所不在的服務,隨身攜帶的手機是較為理想的硬件載體。蘋果和谷歌已經在智能手機領域成功,未來可能後來居上,佔據主導位置。

巨頭圍繞智能語音助理展開生態佈局,推動跨平臺、跨系統的智能語音助手應用。廠商通過開放api、與第三方app互動等形式擴大生態建設,推動語音助手在手機、家居、汽車等領域應用。亞馬遜採取開放Alexa的語音技術供第三方開發者免費使用。此外亞馬遜沒有對合作夥伴設置獨家合作協議,硬件製造商可以自由切換到競爭對手的語音助理,這也使得硬件廠商更樂於集成Alexa。蘋果早在2014年就發佈了自家的智能家居平臺HomeKit,並不斷加強HomeKit與Siri的融合;2016年6月,蘋果宣佈開放SDK 給開發者們,允許其他的第三方應用接入 Siri。谷歌也表示將向開發者和第三方軟硬件開放assistant。

當前智能語音助手商業模式呈現多樣化。目前較為成熟的亞馬遜的商業模式。亞馬遜的核心零售業務內置於Echo中,用戶與 Echo 的互動會鼓勵用戶更多地去購物,而且會將更多的數據反饋給亞馬遜的推薦系統,因此網站和應用程序都可以再次促進用戶購買更多商品。另外一種是利用智能語音助手實現對用戶更深層次理解,實現更精準的用戶定位。智能語音助手有著用戶需求的詳細數據集,結合對物理行蹤、搜索歷史以及電子郵件和文本內容的瞭解,可實現更好的廣告定位,Google和Facebook等公司目前主要採取此種收入模式。

四、智能語音助手當前發展仍存不足

使用習慣還有待培養

根據Gartner的調查數據,用戶經常使用智能語音助手的兩至三個功能—天氣、位置和日曆核對。Echo雖然擁有上千種功能,但是大部分功能用戶並不會使用,用戶使用亞馬遜Echo的最的功能是設置時間和播放歌曲,80%以上用戶使用過[3]。

智能語音助手加速發展將成為新的用戶入口

市場碎片化

目前,市場上有多家廠商提供智能語音助手服務,這些廠商與不同的設備廠商達成合作,形成了各自為陣的生態系統。內置智能語音助手的設備商,必須對現存的替代方案開放,並與不同的服務提供商協作,才能提供便於用戶使用、尤其是跨平臺使用的服務。

隱私問題

理想情況下,個人鑑別信息應該安全地存儲在用戶設備上,並且不會洩露給智能語音助手提供商或者其他服務提供商。但是實際上智能語音助手需要把用戶數據上傳至雲端服務器,經過計算後將結果返回到終端,涉及到雲端存儲保障隱私問題。

技術瓶頸

智能語音助手還存在語義理解方面的問題。雖然語音識別技術這兩年取得了較大進步,但理解整個對話的環境和上下文語義,是目前絕大部分機器學習或人工智能的瓶頸,機器還很難將詞語表達的意思與語境和情緒相結合。

五、國內與國外同步發展

一方面,語音識別技術與國外發展同步。科大訊飛在國際最高水平語音合成賽Blizzard Challenge 中十連冠,14、15 年兩次國際漢英翻譯大賽IWSLT 全球第一、15 年機器口語翻譯系統獲NIST 國際評測冠軍,在車內語音方面交互成功率更是超過86%,領先第二名高達10%[4]。

另一方面,本土智能語音助手相較國外產品具有競爭優勢。百度是除美國公司之外,同規模公司中唯一一個運營智能語音助手的。百度智能語音助手Duer可提供搜索信息、預定電影票、叫出租車等助理服務,採用端到端的深度學習系統,有時它在識別漢語語音片段方面,要比人為識別更加準確。國內的大量人口和強勁的中國內容數據庫是Duer的競爭優勢,相比於微軟Cortana,百度的搜索引擎數據庫更具優勢,谷歌則至今在中國沒法使用,使得Duer成為最受中國市場驅動的智能語音助手。Duer內置於百度安卓搜索app中,安裝在中國上百萬手機中。百度正在致力於將Duer擴展至手機以外的其他設備,例如機器人或者家庭設備。

[1] 數據來源:Forrester估計數據

[2] 數據來源:ImageNet競賽數據

[3] 數據來源:Experian and Creative Strategies調研公司調查報告《Amazon Echo Study & Findings》, 2016

[4] 數據來源:中國信息通信研究院報告《人工智能產業技術發展研究》,2016

作者簡介

聞立群:中國信息通信研究院信息化與工業化融合研究所高級工程師,從事智能終端及元器件、移動互聯網等方面研究。


更多觀點,歡迎關注中國信通院微信公眾號:catrcatr

或訪問中國信通院官網:www.caict.ac.cn

版權所有中國信通院,轉載請註明來源!

智能語音助手加速發展將成為新的用戶入口

相關推薦

推薦中...