“出口成章”:語音技術的突破

人工智能 語音識別 機器學習 深度學習 光明網頭條號 2017-03-28

作者:張夢翰(復旦大學生命科學學院博士後研究人員)

近年來,自動語音識別(Automatic Speech Recognition,ASR)技術突飛猛進。所謂自動語音識別包含了平時說的電腦語音輸入。它作為人工智能領域中較為成熟的一項技術,基本上已經幫助我們實現了“出口成章”的願望。

“出口成章”:語音技術的突破

光明圖片/視覺中國

例如,2016年9月,浙江省高等法院已經開始使用自己研發的智能語音識別系統進行庭審記錄,並且這套系統會針對法律文書習慣進行自動糾錯。同年底,來自科大訊飛公司全新的語音輸入系統,在噪聲環境下的響應速度超乎大家的想象,準確率達到97%。與此同時,百度和搜狗開發的語音識別系統在技術指標方面,與科大訊飛不分伯仲。

如此驚人的準確率基本可以匹敵人類的水平。這完全得益於重新迴歸整個工業界視野的“解凍”技術——深度學習。深度學習的核心是構建一個深度神經網絡。一個簡單的神經網絡一般是由點、邊和層級來描述的。其中,網絡的點就是大腦神經元,網絡的邊就對應著神經元之間的相互連接,層級可以理解為近似表示不同大腦功能區。所謂的深度學習,可以理解為是通過構建多個層級的點和邊來描述不同大腦功能區內部及之間的神經元連接,通過大量數據訓練(驅動),描述一些抽象的信息在大腦中的傳遞。這種模型訓練(驅動)的模式類似於一個小孩開始學習周圍環境的知識。

但是,深度學習或者說神經網絡的發展並不是一帆風順的。在隱馬爾科夫模型和貝葉斯模型佔據語音識別技術制高點的時期,這種技術在工業界的應用並沒有得到太多的表現。受制於模型學習時間長、硬件加速困難以及所需訓練數據量過大,基於神經網絡的語音識別一時出現了“冷凍期”。甚至在較長的一段時間,國內外與之相關研究經費都在被削減。但大約在2006年以後,三個重大改變助力了這項技術的崛起:

第一,圖形處理器(GPU)在硬件層面大大地提高了模型的訓練速度;

第二,國內外科技大公司和研究機構(如百度、科大訊飛、微軟等)在前期投入大量人力對大數據的獲取和標記,已經形成了大數據的規模,互聯網近十年來積累的數據量是爆炸式的;

第三,針對多層級的神經網絡模型的訓練,一些預訓練(pre-training)和調試技巧被開發出來。

此外,各個主力研究機構的軟件開源也大大降低了他人在系統開發上的時間成本和技術門檻,這也促進了深度學習快速發展。

在語音識別領域,目前表現較為優異的深度學習模型應該是遞歸神經網絡。訓練這種模型的本質就是通過前一個時期和此時此刻的信息,預測下一個時期的信息。這就好像是每天課堂上老師會讓學生重複一下前一天的上課內容,並在當天課後給出下一節課的內容。通過這種“鞏固—學習—預習”模式,這種模型不僅可以學到一段語音的語言模型(語言的上下文),還能學到語音信號中的連續變化,例如發音動作的連續改變。像科大訊飛的語音識別系統基本也是在這個基礎上再進行開發的。

但是,目前語音識別系統的開發還存在幾個急需要攻克的難點:

一是自然語言理解(語義理解)。人類可以通過說話者的表情、手勢以及說話語氣推測說話人的語義,但這個平常我們無時無刻不在使用的技能,要讓計算機學會可不是件容易的事情。

二是口音和方言對語音輸入識別的影響。不同人的說話風格(例如咬字、吞音等現象)以及語法使用的不規則性也會大大降低人機交互的效率和準確性。在中國,漢語方言對語音識別是一個不可避免的影響。中國的漢語方言差異可以和印歐語系中不同語族的差異相提並論。方言在語音、詞彙和語法結構上的多樣性對語音識別產生了較多阻礙。幸運的是,國內諸多科技公司已經開始著手建立漢語方言的語音數據庫,並在此基礎上獲得了一些突破性進展。

三是場景聲音的識別。遠場的語音環境或者較大噪聲的環境都會削弱語音信號中具有辨識意義的信號,這會導致語音識別的失效。據不完全統計,在噪聲環境中的車載系統語音識別上,國際上最優秀的語音識別系統的識別率也僅有86.9%,第二名的識別率只有74%。

四是期望使用更少的數據。語音識別所依賴的深度學習技術還需要大量已標記的語音數據進行訓練和驅動,但是這類數據的標記是一個耗時耗力耗財的工作。目前只有極個別的研究機構以及科技巨頭具有這樣的數據量。如何使用更少的數據獲得一個可靠的語音識別系統會是下一個發展目標。

作為一種新的面向人工智能的交互方式,語音識別或者語音輸入已經在輸入法上得到廣泛應用,使得手機文字輸入可以擺脫對雙手的依賴,轉而使用最自然的方式進行語言的表達和輸出信息。這已經開始改變年輕一代用傳統鍵盤輸入的習慣。在搜狗公佈的2016年語音輸入使用報告中,80後和90後年輕人已經成為該技術的主要用戶群體。雖然語音識別已經展現了超越鍵盤輸入法的優勢,但是這種技術對於使用者的使用環境有著較多的要求,應用場景往往受到限制。

未來,隨著人工智能技術的不斷髮展、使用人群的逐步擴大及用戶習慣的日益養成,語音輸入的應用領域還將持續擴大。

《光明日報》( 2017年03月26日 12版)

相關推薦

推薦中...