林元慶破解小度問鼎最強大腦三大原理，後吳恩達時代百度 AI 突圍

人工智能最強大腦吳恩達機器學習新智元 2017-04-12

新智元報道

本季腦王共分三個環節，前兩個環節人類選手和小度都參與了挑戰（小度都成功了，兩名人類選手都失敗了），第三個環節則是小度和人類選手分別挑戰不同的項目（結果小度失敗，人類成功）。

最終結果：人類代表隊和小度共同獲得腦王。

節目很明顯的一點，就是“機器 PK 人類”的色彩相比第一季時弱化了很多，最後展現結果時也沒有特意將人和機器做對比。對此，百度研究院院長林元慶表示，這確實是節目組的設計，“最後沒有比拼，而是希望以展現人和機器能夠共存，機器能夠幫助人，希望突出這樣一個主題”。

整場挑戰賽的三個環節（共四個項目）分別是：

挑戰一：滄海桑田（小度VS人類選手）

比賽項目：根據一個很小很模糊的細節，找出這個細節是屬於30張照片中哪一張，並且指出這個細節具體位於照片的哪個位置。匹配成功則挑戰成功。

比賽結果：小度選擇正確，人類選手（黃政）選對了照片，但是標註錯了碎片在照片中的位置。

挑戰二：親愛的（小度VS人類選手）

比賽項目：嘉賓在40張父母合照中隨機挑選一張，選手和小度同時觀察該照片，在40位造型一致，身材接近的女生中，找到該父母的親生女兒，找出的女兒手中全家福照片與父母合照背面的全家福完全一致，則挑戰成功。

比賽結果：小度答對，人類選手（Alex）答錯。

挑戰三：永不消逝的電波（小度單獨挑戰）

項目規則：現場30段情景的說話聲，與30個笑聲相匹配；小度採集完整的30段說話聲，隨後根據嘉賓隨機挑選的一個笑聲，找到對應的說話聲。正確找出則挑戰成功

挑戰結果：小度挑戰失敗。

挑戰三：一字成書（人類選手單獨挑戰）

項目規則：現場20封由不同字體書寫的家書，嘉賓隨機選擇一封，選手僅觀察所選家書封面，判斷所屬字體，在232個四字重疊的疊字碎片牆中，找到屬於該家書字體的所有字，全部找對，則挑戰成功。

挑戰結果：人類選手（陳智強）挑戰成功。

腦王爭霸賽比賽難點和技術分析

下面，我們就來具體看看，小度參與的三個項目都涉及了哪些技術，難點又在哪裡。圖片來自4月5日媒體觀影會百度研究院院長林元慶演講PPT。

挑戰一：滄海桑田（圖像檢索）技術原理

這個技術其實很像百度常用的圖像檢索，拿一張照片來找到在互聯網海量的照片中找到和它相似的照片。據悉，百度的這項技術已經在服務億萬的用戶。

計算機進行圖像識別，是利用分類和提取出圖像的重要特徵，並對多餘的無用特徵加以有效地排出。計算機所能提取出來的上述特徵有時會較為明顯，而有時也會非常的普通，這在極大程度上對計算機的識別效率造成一定影響。

因此，如何讓圖像特徵抽取的過程更穩定，不受模糊、噪點等信息的干擾，讓搜索結果更精準，是圖像檢索成功的關鍵。

這項挑戰的難點：

比賽比平常的圖像檢索難度大大升級，老照片都是模糊、破損的，無法達到普通檢索的要求，對算法造成了很大的干擾；
一般的圖像檢索中，圖片中會有多個有效信息點來相互校驗，但這次比賽提供的只是圖片中的一小塊，只有一個信息點。小度必須在線索少、干擾大的情況下，完成這個任務。

據介紹，百度基於真實用戶圖像檢索場景的圖像檢索數據，構建了覆蓋了多種真實的圖像擾動大規模圖像匹配訓練集合。利用神經網絡訓練進行監督訓練得到圖像局部特徵表示模型，該模型可以提取魯棒的低維圖像特徵表示。基於該模型，百度實現了百億規模的互聯網圖像的快速檢索。

挑戰二：找“女兒”（隔代識別）技術原理

嘉賓在40張父母合照中隨機挑選一張，選手和小度同時觀察該照片，在40位造型一致，身材接近的女生中，找到該父母的親生女兒，找出的女兒手中全家福照片與父母合照背面的全家福完全一致，則挑戰成功。

人臉識別是基於人的臉部特徵信息進行身份識別的一種生物識別技術。用攝像機或攝像頭採集含有人臉的圖像或視頻流，並自動在圖像中檢測和跟蹤人臉，進而對檢測到的人臉進行臉部的一系列相關技術。

這項挑戰所涉及的“隔代識別”仍屬於圖像識別分類中的人臉識別，只是難度更大。隔代識別技術原理與人臉識別相同：形成灰度圖，分別提取父母面部的特徵點和孩子的特徵點進行比對。

這項挑戰的難點有幾個：

首先，計算機需要從圖像中識別出人臉。計算機需要識別並去除臉部周圍的多餘像素，如用橢圓遮罩，只顯示內部的人臉區域而不是頭髮或圖片背景，因為頭髮或背景的變化往往多於臉部區域。

其次，外在因素影響孩子的容貌，曾加識別難度。先天的臉型隨著後天的生活狀態、社會環境、個人經歷的不同，也會發生較大的變化，甚至有整形的可能。也就是說，孩子離開父母很久的話，可能會朝著一個完全未知的方向去變化。

最後，遺傳的不確定性。父母長相和孩子長相的相似性是不確定的，隔代人的面部特徵有很大的差別，例如父母都是大眼睛，孩子卻很有可能是小眼睛。給機器的干擾項要比有效信息項多。雖然可以通過機器學習和算法優化解決，但讓機器排除干擾完成這個任務，仍然面臨很大的挑戰。

據百度方面介紹，在參加完前三期的《最強大腦》之後，百度大腦跨年齡人臉識別的能力飛速升級，現在已經成為一項可以穩定運用、服務社會的新技術。

挑戰三：永不消逝的電波（聲紋識別）技術原理

上面的圖是比賽的實例解析，下面則是比賽原理還原（都來自林元慶演講PPT）。

本次比賽對機器來說考的是聲紋識別。

聲紋識別和語音識別一樣，都是通過對採集到的語音信號進行分析和處理，提取相應的特徵或建立相應的模型，然後據此做出判斷。兩者不同的地方在於，語音識別是讓機器聽懂我們說的是什麼，而聲紋識別則是判斷給定的一句話到底是誰說的。

聲紋識別的理論基礎是“每個人的說話特性都具有其獨特的特徵”，這主要是由生理構造（比如咽喉、鼻腔、口腔以及胸腔的形狀、尺寸和位置），以及發聲的操作方式決定的。正常說話時的聲紋狀態還是相對穩定的。但是，聲紋特性仍然具有易變性，容易受身體狀況、年齡、情緒等情況的干擾。

聲紋識別從任務上來說，主要分為聲紋確認技術（1:1）和聲紋識別技術（1：N）兩類。聲紋確認技術回答的是兩句話到底是不是一個人說的問題，而聲紋識別技術回答的則是”給定的一句話屬於樣本庫中誰說的”問題。

在本次挑戰中，小度需要識別出一段笑聲是誰發出的。技術上主要難點包括：

1. 泛化能力衡量一個機器學習算法好壞的一個重要指標，就是機器能夠處理學習時沒有遇見過的樣本的能力，也即”泛化能力”。傳統聲紋識別任務，註冊和測試是非常匹配的，即註冊採用正常說話，測試也是正常說話。而在本次比賽中，註冊的語音則變成了唱歌，測試的才是正常說話。因此，模型必須能夠學到同一個人在唱歌和說話時的差異。這對聲紋識別算法的泛化能力提出了更高的要求。

2. 測試聲音的單調性 人在正常講話時，是由各個發音器官協調運作而發出語音的，可以從中捕捉到說話人的一些個性特徵。但是，笑聲的發音非常單調，包含的有效信息非常少，因此提取說話人特徵表徵的難度大大增加。

3. 笑聲的多變性聲音本身具有易變性，而笑聲更甚。比如說，一個人在笑的時候可以發出比較爽朗的笑聲，或是比較自然的哼哼聲，還有非常誇張的哈哈大笑，甚至是不張嘴的冷笑聲。而本次挑戰的項目對測試笑聲並沒有定義具體的標準，我們必須要儘可能全面地覆蓋。

4. 信道與噪聲問題信道與噪聲問題一直是聲紋識別領域的一個難點。據百度研究人員介紹，這次比賽時現場的信道與他們積累與收集的語音數據有很大不同，“想要收集到大量同信道的數據非常困難，我們必須要想辦法將跨信道的影響降到最低”。

據悉，小度在此項挑戰中失敗的原因是：

百度聲紋識別目前還無法在這麼難的挑戰上達成100%的正確率，存在一定的失敗機率。未來會繼續加強聲紋識別的訓練。

林元慶談小度失敗和吳恩達離開

4月5日，在百度舉行的提前觀片會上，百度研究院院長林元慶就本次比賽回答了記者提問。新智元沒有參加觀片會，以下是根據現場速記整理的內容（發佈時有編輯）。

提問：前兩個比賽都是小度和人類同時挑戰一個項目，為什麼最後一個是分開挑戰不同項目？這樣不對等，無法分出勝負。

林元慶：最後腦王盛典總體的基調不算是PK了，我們節目組決定希望還是把PK的成分降到比較低。雖然前面這兩個有間接地在看人做做起怎麼樣、機器做起來怎麼樣，但最後結果展現的時候也沒有說人和機器比多少怎麼樣。最後跟陳智強比的這塊是非常創新的節目，這個環節是開放的，最後沒有比拼，而是希望以展現人和機器能夠共存，機器能夠幫助人，希望突出這樣一個主題。

提問：小度識別錯誤之後有分析出原因嗎？是樣本太少還是怎麼樣？

林元慶：後面的訓練是非常大的，整體來說這個系統還是很好的，應該來說我們內部人和系統比較過，這個系統也是比人好，只是那天比賽的確實有一些隨機性，有一道沒有做起來，其實系統還是很好的。

提問：目前有很多比賽都是人跟圍棋對弈，李開復最近也搞了德州撲克人機比賽，百度如何看待這種競技類的項目，百度為什麼不做？

林元慶：人工智能不是一個技術，是非常多的技術，包括圍棋或者是德州撲克，這些只是人工智能這裡面的一個分支，千萬不要認為人工智能就是下圍棋，或者人工智能就是人臉識別，不是這樣的。人工智能這個裡邊領域非常多，百度的話人工智能是一千多個，當我們挑選這些方向的時候，我們會挑一些我們覺得非常有意義的方向，比如像人臉識別。當我們真正解決實實在在問題的時候，我們是很感動的。這些技術對這個社會來說是非常有用的，包括自己內部非常方便，我之前和媒體朋友提過，今年應該會在一百個景區落地刷臉，十一的時候，或者前一段清明節，一進到景區看到最壯觀的就是排隊，本來幾個小時在這裡玩，但是排隊就幾個小時，還不如刷臉進去，什麼都不要，掏手機都不要。百度的話，我們決定哪些方向投入重兵來做，這是基於公司不同的戰略考慮。

提問：私下有沒有將人工智能與圍棋手或者棋牌手對戰，做測試？這個不是你們感興趣的對嗎？

林元慶：增強學習我們是有工作在做的，但是我們只是做的方向和他們很不一樣，我不知道大家有沒有注意到，前不久百度美國實驗室出來一篇文章，用語言的方式教會一個機器人怎麼在屋裡面真正走到終點，我們更看重的是這個方面，我們的目的也是這個，這些是非常有意義的探索。百度更希望做自己覺得有意義的方向。如果說 AlphaGo 沒有人做，有可能百度會做，但是現在已經做出來了，並且已經做的很好了，這裡面需要探索的東西我們認為沒有那麼多了。我們希望在我們一些特別感興趣的方向上投入更大。

提問：吳恩達離開之後，百度在AI團隊方面做了一些調整，這個整合會做哪些方面的工作？現在的進展怎麼樣？您所領導的這個實驗室未來在新的體系內所承擔的職責和研究方向是不是會有一些變化？

林元慶：百度在硅谷的實驗室有兩部分，一部分做無人車，一部分就是百度研究院。目前有兩百多人，還會擴充，這是我們現在的規劃。需要澄清一件事情，深度學習實驗室本來就是屬於百度研究院的，原來就是這樣的，不是說在研究院之外。原來管三個方面，一個是深度學習，大數據實驗室，還有硅谷的人工智能實驗室，去年出來一個叫增強現實實驗室，現在百度研究院是四個實驗室，我現在是百度研究院的院長，負責這四個。

百度研究院本身就是屬於AI體系，吳恩達在的時候負責整個AI體系加百度研究院，他走了之後，百度研究院這塊我來接，整個AI體系在原來的基礎上在增加了知識圖譜等這些部門，這個也是實際情況，他還沒有走的時候，像知識圖譜、NLP我們在一起開會，有重要會的話我們都在一起開，這個也是AI非常重要的部門。

現在公司覺得，我們更應該把這兩個部門整合在一起，這是非常自然的一個做法。在整個過程中，我個人來說沒有感覺到一些非常大的變化，唯一的變化是他走了，其他都還是蠻穩定的，就是整個的團隊，整個資源的協調這些應該都是本來就是這樣的。

提問：您所領導的這些人工智能技術在商業化落地的過程當中，是你們自己團隊推動嗎？

林元慶：我們更多是提供技術，或者說我們百度研究院更多提供一些技術，我們很多技術其實第一輪的落地會在百度內部，因為百度本身有上百種各種各樣的產品線，包括第一輪內部技術的落地、打磨，基本都會在百度內部完成。當這些技術做得比較好的時候，應該有相關的業務部門希望把這些東西推到外面去，這裡面還有一個部門也是非常重要的部門，吳恩達在的時候我們就成立了，就是AI平臺部門，這是一個挺大的、負責這些技術對內對外的孵化和商業化的落地，像人臉那個場景也是跟這幾個團隊合作的，公司在這塊的話，現在已經有專門的團隊做這個事情。

3月27日，新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開，包括“BAT”在內的中國主流 AI 公司、600多名行業精英齊聚，共同為2017中國人工智能的發展畫上了濃墨重彩的一筆。

點擊閱讀原文，查閱文字版大會實錄

訪問以下鏈接，回顧大會盛況：

阿里雲棲社區：http://yq.aliyun.com/webinar/play/199
愛奇藝：http://www.iqiyi.com/l_19rrfgal1z.html
騰訊科技：http://v.qq.com/live/p/topic/26417/preview.html

林元慶破解小度問鼎最強大腦三大原理，後吳恩達時代百度 AI 突圍

相關推薦