馬斯克又來搞事情 OpenAI要用VR訓練機器人

智東西(公眾號:zhidxcom)

文 | Lina

智東西5月17日消息,今天,OpenAI宣佈了一種新型算法:“一次性模擬學習(one-shot imitation learning)”,當人類在VR中演示一次某個動作後,機器通過學習這一動作就可以執行出相同的結果。

OpenAI是Elon Musk於2015年12月宣佈成立的非盈利AI項目,科研人員會將大部分研究成果開源共享;主要關注增強學習無監督學習——谷歌此前名聲大噪的圍棋程序AlphaGo用的就是增強學習;而無監督學習需要機器處理大量沒有標記的數據,自己找到區分不同數據子集、集群、或者相似圖像的辦法,有點像嬰兒學習世界的方式,一直被視作人工智能的真正潛力釋放點。

卷積神經網絡之父Yann LeCun有一個經典比喻:如果人工智能是一塊蛋糕,增強學習(Reinforcement Learning)就是蛋糕上的一粒櫻桃,而監督學習(Supervised Learning)是蛋糕外的一層糖霜,但無監督學習(Unsupervised Learning)才是蛋糕本身。目前我們只知道如何製作糖霜和櫻桃,卻不知道如何做蛋糕。

馬斯克又來搞事情 OpenAI要用VR訓練機器人

一次性模擬學習

OpenAI宣佈的這種新型算法“一次性模擬學習(one-shot imitation learning)”指的是,當人類在VR中演示一次某個動作後,比如將桌面藍色的小盒子疊放在紅色小盒子上這個動作,機器通過學習這一動作就可以執行出相同的結果,並且不論桌面盒子擺放的順序如何,機器都可以準確執行。

馬斯克又來搞事情 OpenAI要用VR訓練機器人

這套學習系統由兩個神經網絡組成:一個視覺網絡(vision network)和一個模仿網絡(imitation network)。

視覺網絡(vision network)獲得的圖像來自機器人的攝像機,此前,這個視覺網絡經過數十萬張模擬圖像的訓練,每張都具有不同紋理、光影效果等(但是從未使用真實圖像進行訓練);

模擬網絡(imitation network)則必須生成一個與VR演示動作一致的執行步驟,並且推斷出該任務的意圖,使得在初始設定變更時(如盒子的擺放順序調亂時)依舊可以找到藍色的盒子並把它疊在紅盒子上。

目前,學術界與產業界都在尋找使用各種訓練機器人的手法,比如英偉達CEO黃仁勳在上週的GTC大會上也宣佈了一款名為ISAAC的增強學習世界模擬器,創造出一個完全虛擬的、專為訓練機器人而打造的世界。

馬斯克又來搞事情 OpenAI要用VR訓練機器人

這是一個遵循物理法則但不遵循時間法則的世界,在現實生活中,你想要訓練一臺機器學會打冰球,你要將這個冰球放在機器前面,一遍一遍地教會它;而在虛擬世界裡,機器可以在一秒內重複眾多次這樣的動作,而且你還可以同時訓練一堆機器學習打球,然後找到裡面最聰明的一個,將它的“大腦”程序複製出來,創建一堆同樣的機器再繼續訓練篩選。(多人VR交互、30億刀的顯卡、神祕ISAAC黑科技……乾貨滿滿的GTC 2017一文看盡

馬斯克又來搞事情 OpenAI要用VR訓練機器人

相關推薦

推薦中...