“出口成章”：語音技術的突破

人工智能語音識別機器學習深度學習光明網頭條號 2017-03-28

作者：張夢翰（復旦大學生命科學學院博士後研究人員）

近年來，自動語音識別（Automatic Speech Recognition，ASR）技術突飛猛進。所謂自動語音識別包含了平時說的電腦語音輸入。它作為人工智能領域中較為成熟的一項技術，基本上已經幫助我們實現了“出口成章”的願望。

光明圖片/視覺中國

例如，2016年9月，浙江省高等法院已經開始使用自己研發的智能語音識別系統進行庭審記錄，並且這套系統會針對法律文書習慣進行自動糾錯。同年底，來自科大訊飛公司全新的語音輸入系統，在噪聲環境下的響應速度超乎大家的想象，準確率達到97%。與此同時，百度和搜狗開發的語音識別系統在技術指標方面，與科大訊飛不分伯仲。

如此驚人的準確率基本可以匹敵人類的水平。這完全得益於重新迴歸整個工業界視野的“解凍”技術——深度學習。深度學習的核心是構建一個深度神經網絡。一個簡單的神經網絡一般是由點、邊和層級來描述的。其中，網絡的點就是大腦神經元，網絡的邊就對應著神經元之間的相互連接，層級可以理解為近似表示不同大腦功能區。所謂的深度學習，可以理解為是通過構建多個層級的點和邊來描述不同大腦功能區內部及之間的神經元連接，通過大量數據訓練（驅動），描述一些抽象的信息在大腦中的傳遞。這種模型訓練（驅動）的模式類似於一個小孩開始學習周圍環境的知識。

但是，深度學習或者說神經網絡的發展並不是一帆風順的。在隱馬爾科夫模型和貝葉斯模型佔據語音識別技術制高點的時期，這種技術在工業界的應用並沒有得到太多的表現。受制於模型學習時間長、硬件加速困難以及所需訓練數據量過大，基於神經網絡的語音識別一時出現了“冷凍期”。甚至在較長的一段時間，國內外與之相關研究經費都在被削減。但大約在2006年以後，三個重大改變助力了這項技術的崛起：

第一，圖形處理器（GPU）在硬件層面大大地提高了模型的訓練速度；

第二，國內外科技大公司和研究機構（如百度、科大訊飛、微軟等）在前期投入大量人力對大數據的獲取和標記，已經形成了大數據的規模，互聯網近十年來積累的數據量是爆炸式的；

第三，針對多層級的神經網絡模型的訓練，一些預訓練（pre-training）和調試技巧被開發出來。

此外，各個主力研究機構的軟件開源也大大降低了他人在系統開發上的時間成本和技術門檻，這也促進了深度學習快速發展。

在語音識別領域，目前表現較為優異的深度學習模型應該是遞歸神經網絡。訓練這種模型的本質就是通過前一個時期和此時此刻的信息，預測下一個時期的信息。這就好像是每天課堂上老師會讓學生重複一下前一天的上課內容，並在當天課後給出下一節課的內容。通過這種“鞏固—學習—預習”模式，這種模型不僅可以學到一段語音的語言模型（語言的上下文），還能學到語音信號中的連續變化，例如發音動作的連續改變。像科大訊飛的語音識別系統基本也是在這個基礎上再進行開發的。

但是，目前語音識別系統的開發還存在幾個急需要攻克的難點：

一是自然語言理解（語義理解）。人類可以通過說話者的表情、手勢以及說話語氣推測說話人的語義，但這個平常我們無時無刻不在使用的技能，要讓計算機學會可不是件容易的事情。

二是口音和方言對語音輸入識別的影響。不同人的說話風格（例如咬字、吞音等現象）以及語法使用的不規則性也會大大降低人機交互的效率和準確性。在中國，漢語方言對語音識別是一個不可避免的影響。中國的漢語方言差異可以和印歐語系中不同語族的差異相提並論。方言在語音、詞彙和語法結構上的多樣性對語音識別產生了較多阻礙。幸運的是，國內諸多科技公司已經開始著手建立漢語方言的語音數據庫，並在此基礎上獲得了一些突破性進展。

三是場景聲音的識別。遠場的語音環境或者較大噪聲的環境都會削弱語音信號中具有辨識意義的信號，這會導致語音識別的失效。據不完全統計，在噪聲環境中的車載系統語音識別上，國際上最優秀的語音識別系統的識別率也僅有86.9%，第二名的識別率只有74%。

四是期望使用更少的數據。語音識別所依賴的深度學習技術還需要大量已標記的語音數據進行訓練和驅動，但是這類數據的標記是一個耗時耗力耗財的工作。目前只有極個別的研究機構以及科技巨頭具有這樣的數據量。如何使用更少的數據獲得一個可靠的語音識別系統會是下一個發展目標。

作為一種新的面向人工智能的交互方式，語音識別或者語音輸入已經在輸入法上得到廣泛應用，使得手機文字輸入可以擺脫對雙手的依賴，轉而使用最自然的方式進行語言的表達和輸出信息。這已經開始改變年輕一代用傳統鍵盤輸入的習慣。在搜狗公佈的2016年語音輸入使用報告中，80後和90後年輕人已經成為該技術的主要用戶群體。雖然語音識別已經展現了超越鍵盤輸入法的優勢，但是這種技術對於使用者的使用環境有著較多的要求，應用場景往往受到限制。

未來，隨著人工智能技術的不斷髮展、使用人群的逐步擴大及用戶習慣的日益養成，語音輸入的應用領域還將持續擴大。

《光明日報》（ 2017年03月26日 12版）

相關推薦

'科大訊飛成為北京冬奧會語音轉換與翻譯供應商'

"9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京舉行，科大訊飛正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。科大訊飛成立20年來，長期從事語音及語言、自然語言理解、機器學習推理及自主學習等核心技術研究，並保持...

科大訊飛冬季奧林匹克運動會語音合成技術語音識別技術機器學習自然語言處理 2019-09-19

'科大訊飛成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商'

"2019年9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮向科大訊飛頒發北京2022官方...

科大訊飛冬季奧林匹克運動會技術劉慶峰語音合成喻紅國家電網語音識別技術中國石油化工集團奧林匹克運動會機器學習體育自然語言處理 2019-09-19

'依託“自動駕駛地圖+AI”，四維圖新加碼佈局智慧出行'

" 記者| 楊霞四維圖新正在以全面的技術發展戰略迎接自動駕駛時代的來臨。“AI of Things是未來世界的發展趨勢，AI of Vehicles是我們現階段的重點發展方向。”9月17日，四維圖新CEO程鵬在2019年四維圖新用戶大會的開場主題演講中表示。會上，四維圖新分...

四維圖新人工智能無人駕駛技術大數據商用車算法屏住呼吸智能汽車來了北斗衛星導航系統 BMW 中國電信交通通信證券投資基金操作系統數據挖掘增強現實原汁原味的德系SUV 雷達 2019-09-19

'沒朋友能省1000塊？任天堂推出精簡版新遊戲機，專為單身玩家打造'

"新的一週又開始了，本週又會有哪些好玩的新遊戲等著我們呢？一起來看看吧。本週新遊發售《AI：夢境檔案》9月19日正式發售由《極限脫出》系列的導演打越鋼太郎打造的全新遊戲《AI：夢境檔案》將會在9月19日正式登陸PS4、Switch以及Steam平臺，並同步支持中文。《AI：...

任天堂電子遊戲機 Steam 掌上游戲機塞爾達傳說 PlayStation 人工智能冒險遊戲極限脫出 Game Boy 檔案 2019-09-19

'百度的自動駕駛、阿里的城市大腦、科大訊飛的智能語音，你看好誰'

"百度自動駕駛、阿里巴巴城市大腦、騰訊醫療影像、科大訊飛智能語音、商湯智能視覺，在全球人工智能產品應用博覽會上，我國五大國家級人工智能開放創新平臺首度集中亮相，展示我國人工智能產品應用的最新成果。目前，國家五大人工智能開放創新平臺涉及AI的應用領域，具體如下:依託百度公司建...

百度阿里巴巴集團科大訊飛人工智能無人駕駛騰訊阿里雲計算人生第一份工作商湯 2019-09-19

'機器速記上馬服務奧運會：訊飛成北京冬奧會自動語音轉換供應商'

"2019年9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮，科大訊飛董事長劉慶峰，中國奧...

冬季奧林匹克運動會奧林匹克運動會科大訊飛技術語音合成機器學習劉慶峰語音識別技術國家電網中國石油化工集團自然語言處理體育喻紅招聘青島中國石油 2019-09-19

'故宮“牽手”騰訊出品影視劇《故宮如夢》探索5G+新文創內容範本'

"今天下午，故宮博物院與騰訊共同簽署深化戰略合作協議，雙方將聯合推出影視劇《故宮如夢》，首次將目光聚焦紫禁城誕生時的宮城營造歷史，並在劇中探索打造5G與新文創結合的內容範本，展現大國工匠的獨特魅力。紫禁城600週年之際也正值5G時代來臨，5G的高數據速率、低延遲等特性，給內...

故宮博物院我的第一部5G手機電視劇文物騰訊歷史文化蒯祥漫畫人工智能紀錄片藝術 2019-09-19

'美國專利局對AI專利出手，提12大問題徵求意見，不怕專利流氓'

"郭一璞安妮發自凹非寺量子位出品 | 公眾號 QbitAI谷歌的手裡，握著無數的AI專利，讓每個AI從業者頭疼。比如Geoffrey Hinton老爺子搞的DropOut，谷歌兄弟公司DeepMind手裡的RNN，在法律層面，專利權都歸谷歌所有。這些都是地球上幾乎所...

人工智能 Google 技術算法電腦軟件程序員知識產權法律 GitHub 設計數據庫操作系統斯坦福大學人生第一份工作創業 2019-09-19

'比特大陸發新雲端AI推理芯片！海康陳宗年點出城市大腦兩大陷阱'

"芯潮（ID：aichip001）文 | 心緣芯潮9月17日福州報道，今天上午，比特大陸預告已久的第三代雲端AI推理芯片BM1684終於來了！該芯片採用臺積電12nm工藝製程，Winograd卷積加速下INT8算力可達35.2TOPS ，典型功耗僅16W，為視頻結構化和加...

人工智能技術算法雲計算臺灣積體電路製造公司雷州福州軟件海康威視深度學習大數據設計編譯器經濟 2019-09-19

'馬雲提出的TechFin，會顛覆什麼？'

"來源：庭前獨角獸特別提示：凡本號註明“來源”或“轉自”的作品均轉載自媒體，版權歸原作者及原出處所有。所分享內容為作者個人觀點，僅供讀者學習參考，不代表本號觀點。2017年1月份，阿里巴巴集團的高管突然有一天造訪了螞蟻金服，與螞蟻金服的高管們開會。當日，馬雲在會議上提出了...

金融技術馬雲人工智能大數據算法銀行機器學習阿里巴巴集團軟件亞馬遜公司螞蟻金服自媒體約瑟夫·熊彼特人生第一份工作電腦 Uber Google 硅谷 Facebook 創業 2019-09-18

'2所非211院校挺進全球高校600強，泰晤士世界大學排行榜出爐'

"邊策乾明發自凹非寺量子位報道 | 公眾號 QbitAI深圳大學，馬化騰母校，實力排名正在快速提升。最新排名中國內地高校十八名，全球高校600強。與人民大學、廈門大學等985高校並列，超過了諸如大連理工、山東大學等一干985高校。但這個成立於1983年成立的綜合性...

大學泰晤士高等教育深圳大學南方科技大學清華大學香港科技大學陳一丹北京大學牛津大學張志東馬化騰深圳中國科學技術大學廈門大學許晨曄大連理工大學上海朱清時英國證券投資基金山東大學李彥宏香港大學諾貝爾獎張朝陽史玉柱王小川騰訊加拿大人工智能江蘇中國人民大學汕頭大學 2019-09-18

'科大訊飛成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商'

科大訊飛冬季奧林匹克運動會技術語音合成奧林匹克運動會劉慶峰語音識別技術中國石油化工集團國家電網體育機器學習喻紅中國石油自然語言處理青島 2019-09-18

'微軟亞洲研究院向國內高校教師和從業者推出AI教育與學習共建社區'

"微軟亞洲研究院人工智能教育團隊日前已經創建名為人工智能教育與學習共建社區為國內教師和從業者提供幫助。據介紹該社區是在教育部指導下依託人工智能開放科研教育平臺，由微軟亞洲研究院研發團隊和學術合作部建立。在學習社區中微軟亞洲研究院將提供人工智能應用開發的真實案例，配套的教程以...

微軟人工智能微軟亞洲研究院技術亞洲 Windows Windows 10 2019-09-18

'從買買買到技術輸出：金融科技公司出海新模式'

"隨著如今中國金融科技的飛速發展，一批金融科技公司開始從立足國內進而放眼全球，從螞蟻金服、京東數科，到金融壹賬通、微眾銀行等，科技出海的案例已經越來越多。近年來，隨著金融科技公司在平安集團中的逐個瓜熟蒂落，科技輸出開始成為中國平安新的海外擴張模式。行行查，行業研究數據庫（網...

金融技術移動互聯網區塊鏈微眾銀行雲計算人工智能數據庫中國人民銀行大數據經濟投資平安保險銀行人生第一份工作京東商城螞蟻金服 2019-09-18

'IBS：中國半導體市場將從以出口為主轉為以內銷為主'

"集微網消息，在2019年9月16日舉行的第七屆上海FD-SOI論壇上，IBS首席執行官 Handel Jones指出，今年半導體市場將會面臨著很多挑戰和問題。比如，IBS的數據預計，2019年，全球半導體市場將會下降13.5%，到2020年才會回升，增長6.08%。其中，...

物聯網智能家居人工智能技術智能手機韓國無人駕駛三星集團攝影我的第一部5G手機美光科技 SK海力士 2019-09-18

'科大訊飛成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商'

科大訊飛冬季奧林匹克運動會技術劉慶峰語音合成中國石油化工集團喻紅國家電網語音識別技術奧林匹克運動會體育機器學習中國石油自然語言處理青島中國聯通 2019-09-18

'科學家已沸騰！2023年人工智能強勢出擊！目標：木衛二'

"木衛二，又稱歐羅巴，是木星的第四大衛星。木衛二不同於暴虐的星球，它的表面是一個溫和的世界，被冰層覆蓋，而底層是一片海洋，與地球環境大體類似，這不僅讓科學家為之關注。我們知道地球海洋孕育了最初的生命，那麼而與地球有類似環境的木衛二，興許也有可能孕育生命，這是誰也無法確定的。...

人工智能地球木星宇宙飛船機器學習算法火星電腦歐羅巴美國國家航空航天局數據挖掘自動機大學腳本語言人造衛星外星生命土星設計地質機器人 2019-09-18

'玩出Game的精彩，2019開學季遊戲顯卡導購寶典'

"又是一年開學季，新生、老生、即將畢業的師兄們，都在策劃著怎樣購買新電腦或是升級自己的電腦吧？臺式機應該怎樣配？筆記本電腦又應該怎樣選擇？而作為必不可少的手機，對學生朋友來說，怎樣才能從市面上成千上萬的產品中選到最心儀的那一款呢？必須對症下藥！為此，《微型計算機》在這個9月...

阿蘭·圖靈電腦英偉達開學季人工智能筆記本電腦技術 GPU 超微半導體 Pascal 設計 2019-09-18

'科大訊飛成北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商'

"9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。發佈會上，北京冬奧組委專職副主席、祕書長韓子榮向科大訊飛頒發了北京2022年...

科大訊飛冬季奧林匹克運動會技術語音合成語音識別技術國家電網劉慶峰奧林匹克運動會機器學習喻紅青島中國石油化工集團燕京啤酒自然語言處理 2019-09-18

'成都龍泉驛：汽車城裡“長”出新經濟'

"“選擇落地成都，就是因為看好成都良好的新經濟環境與政策。同時，我們還了解到成都‘東進’戰略，讓龍泉驛區擁有價值窪地的優勢。”前不久，人工智能企業三角獸科技落地四川省成都市龍泉驛區，公司技術合夥人陳華榮說，成都龍泉驛發展新經濟的優勢和決心，讓他們心動，因而選擇在此發展。龍泉...

成都新能源汽車技術經濟一汽豐田四川一汽-大眾汽車中國第一汽車集團機器人能源哈爾濱工業大學吉利汽車證券投資基金大眾汽車投資人工智能雲計算武漢文化豐田汽車深圳新能源大數據浙江大學 2019-09-18

推薦中...