重磅福利 人工智能課程之強化學習從入門到進階 精品課程推薦

<div><p> 人工智能有望在工業、技術和數字革命層面帶來前所未有的社會變革。能夠進行感測、歸因和操作的機器將加快眾多領域內大規模問題的解決,這些領域包括科學、金融、醫學和教育,進而增強人類的能力,並幫助我們實現更遠、更快的發展。受到摩爾定律和海量數據的推動,人工智能成為了當今眾多技術創新的核心。</p><p><img src='full/832f50426c487cf7a9bca12e49875be756bc4d81' img_width='640' img_height='485' alt='重磅福利 人工智能課程之強化學習從入門到進階 精品課程推薦' inline='0'></p><p> 在人工智能技術廣泛應用的大環境下,2017年人工智能工程師成為IT行業需求缺口最大的崗位,平均年薪較其他崗位平均年薪高。並且隨著從業年限遞增,人工智能從業人員平均薪酬漲幅高。人工智能從業人員平均月薪分佈,超過70%從業者月薪為20K-50K。</p><p><img src='full/fcf43a4bf8711e64194036afb9b37bd2b644967c' img_width='640' img_height='327' alt='重磅福利 人工智能課程之強化學習從入門到進階 精品課程推薦' inline='0'></p><p> 掌握人工智能、深度學習等核心技術,就掌握了未來互聯網技術發展的方向。為此,隆重推出我們的<strong>人工智能系列課程之強化學習從入門到進階,現在開始報名!前十名報名的朋友有優惠哦,學生朋友更可以享受半價優惠(限額5人,先到先得)。</strong></p><p> 本門課程邀請強化學習領域的專家大牛郭博士,為大家奉上人工智能的饕餮盛宴,課程所講內容,絕對的純乾貨。強化學習是AlphaGO背後的核心技術,在金融、遊戲AI、機器人等領域有著廣闊的應用前景。掌握深度強化學習技術的工程師,其年薪最低在30W元以上!</p><p><strong>強化學習從入門到進階課程目錄:</strong></p><p>第一章強化學習概述</p><p> 1.強化學習要解決的問題</p><p> 2.強化學習的發展歷史</p><p> 3.強化學習方法的分類</p><p> 4.強化學習方法的發展趨勢</p><p>第二章馬爾科夫決策過程</p><p> 1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程</p><p> 2.MDP基本元素:策略、回報、值函數、狀態行為值函數</p><p> 3.貝爾曼方程、最優策略</p><p> 4.強化學習的數學形式化</p><p> 5.Python介紹、及簡單的代碼演示</p><p>第三章 基於模型的動態規劃方法</p><p> 1.動態規劃概念介紹</p><p> 2.策略評估過程介紹</p><p> 3.策略改進方法介紹</p><p> 4.策略迭代和值迭代</p><p> 5.值迭代與最優控制介紹</p><p> 6.基於 python 的動態規劃方法演示</p><p>第四章蒙特卡羅方法</p><p> 1.蒙特卡羅策略評估方法</p><p> 2.蒙特卡羅策略改進方法</p><p> 3.基於蒙特卡羅的強化學習方法</p><p> 4.同策略和異策略強化學習</p><p> 5.重要性採樣</p><p> 6.基於python的蒙特卡羅強化學習方法演示</p><p>第五章時間差分方法</p><p> 1.DP,MC和TD方法比較</p><p> 2.MC和TD方法偏差與方差平衡</p><p> 3.同策略TD方法;Sarsa方法</p><p> 4.異策略TD方法:Qlearning方法</p><p> 5.N步預測及的前向和後向觀點</p><p> 6.基於python的TD方法實現</p><p>第六章Gym 環境構建及強化學習方法實現</p><p> 1.Gym環境的安裝和測試</p><p> 2.Gym環境創建的關鍵函數講解</p><p> 3.創建自己的Gym環境講解</p><p> 4.基於自己創建的Gym環境實現MC,TD等算法</p><p>第七章值函數逼近方法</p><p> 1.值函數的參數化表示</p><p> 2.值函數的估計過程</p><p> 3.值函數的優化方法,隨機梯度下降和半梯度下降法</p><p> 4.值函數的線性逼近</p><p>第八章DQN 方法及其變種</p><p> 1.DQN方法介紹</p><p> 2.DQN變種Double DQN, Prioritized Replay, Dueling Network</p><p>第九章策略梯度方法</p><p> 1.策略梯度方法介紹</p><p> 2.似然率策略梯度推導及重要性採樣視角推導</p><p> 3.似然率策略梯度的直觀理解</p><p> 4.常見的策略表示</p><p> 5.常見的減小方差的方法:引入基函數法,修改估計值函數法</p><p>第十章TRPO 方法介紹及推導</p><p> 1.替代回報函數的構建</p><p> 2.單調的改進策略</p><p> 3.TRPO 實用算法介紹</p><p> 4.共軛梯度法搜索可行方向</p><p> 5.基於python的TRPO方法實現</p><p>第十一章 確定性策略方法</p><p> 1.隨機策略與確定性策略比較</p><p> 2.隨機策略AC的方法</p><p> 3.確定性策略梯度方法</p><p> 4.DDPG方法及實現</p><p> 5.基於python的DDPG方法實現</p><p>第十二章 指導策略搜索方法</p><p> 1.GPS提出及發展歷史</p><p> 2.基於約束的引導策略搜索方法cGPSs</p><p> 3.最優控制介紹</p><p> 4.基於軌跡最優的深度強化學習</p><p> 5.信息論基礎知識及最優控制指標函數推導</p><p> 6.GPS具體實現</p><p>第十三章 逆向強化學習方法</p><p> 1.逆向強化學習分類</p><p> 2.學徒學習</p><p> 3.MMP方法</p><p> 4.結構化分類方法</p><p> 5.神經逆向強化學習</p><p> 6.最大熵逆向強化學習</p><p> 7.相對熵逆向強化學習</p><p> 8.深度逆向強化學習</p><p> <strong>講師介紹:</strong>郭博士,南開大學計算機與控制工程學院博士後。2009年畢業於華中科技大學機械設計製造及自動化專業,同年保送到中國科學院瀋陽自動化研究所進行碩博連讀,主攻機器人動力學建模與控制,於2016年1月獲得工學博士學位,期間在國內外知名雜誌和會議發表論文數10篇。2016年以來,郭博士主攻方向為機器人智能感知和智能決策,目前主持兩項國家級課題,內容涉及深度學習,深度強化學習等智能算法在機器人領域中的應用。郭博士於2017年3月開始在知乎專欄強化學習知識大講堂,其深入淺出的講解收到廣大知友一致好評。即將出版《強化學習深入淺出完全教程》一書。</p><p>知乎鏈接:</p><p> https://zhuanlan.zhihu.com/sharerl</p><p><strong>上課時間:8月5日 、6日</strong></p><p><strong>地點:北京 (精緻小班課 人數上限30人) 火熱報名中</strong></p><p><strong>報名諮詢:秋秋</strong><strong>(315937536)</strong></p></div>

相關推薦

推薦中...