李京春：打破信息孤島，大數據要和網絡安全相融合

大數據雲計算網絡安全機器學習億歐網 2017-05-30

圖片來自“視覺中國”

5月25日，大數據安全技術創新與產業化論壇在貴陽舉行，國家信息技術安全研究中心常務副主任兼總工程師李京春以網絡安全大數據發展探討為題做了演講。

以下為演講速記整理：

李京春：各位同仁好！我首先討論的大數據是網絡安全大數據，這一塊比較特殊，我認為大家很容易實現信息共享，大家對威脅比較憎恨，大家現在把這些數據集中起來，其他生產大數據，甚至流通大數據，裡面可能有些比較敏感，威脅大數據應該首先做起來。

講到大數據我想走三條線，大數據裡首先看人工智能，我原來講過計算機誕生的時候有科技計算可以自動控制，還包括通信安全，也包括人工智能，只不過那個時候時機不成熟，現在有了大數據的支撐，這部分會突飛猛進。我們可以看到在那個時候人要交給機器學習是一件非常難的事情，現在希望機器自己學習，人來指導它。

2016年雲計算，大家都在開啟建設的時候，我們發現大數據的瓶頸沒有了，處理能力都解決了，可以看到在很多安全軟件發展過程中，包括入侵檢測，包括殺毒，包括防火牆，實際上都有專家系統的雲服務。包括入侵檢測，入侵檢測是美國海軍資助的，叫入侵檢測專家系統，是一套規則，但現在這種專家系統比較low。現在有這樣的支持，這些融合之後未來可以帶給我們更多的應用。

目前網絡安全和大數據真正融合我認為還沒有實現，雖然有的企業做的不錯，但是我覺得這裡面有一些問題到現在還沒有完全解決，包括看攻防這兩端，一個是攻擊博弈明顯攀升，鬥爭非常激烈，手段花樣翻新，傳統專家系統面臨知識工程評估；業內安全人士應接不暇，專業一線人員和跨學科科研人員存在缺口。可以看到在惡意代碼攻防，有病毒，就有殺毒軟件，攻擊者又有免殺，包括在入侵方面也是這樣，有攻擊，有入侵檢測，又有逃逸攻擊，也有0-day漏洞利用，也有APT供給，在這種情況下傳統確實難以應對，現在面臨的形式，現在防沒有什麼好辦法。

在攻擊端攻擊鏈已經形成，這種攻擊鏈可以看到從探測、武器化、投放、利用、控制、執行、循環已經形成，但是在防護端沒有形成資源整合，包括數據資源、情報資源的整合與共享，還沒有做到，始終處於被動的局面。這次勒索病毒，實際上就是武器化投放利用，這些都是現成的，利用洩露，只做執行層面的代碼，就開始攻擊了。

大數據不等於大信息，大信息不等於打製石。我覺得在網絡安全裡顯得比較突出，可以看到大數據有兩類，一類叫流通大數據，一類叫生產大數據，在內網側，內網側更多是生產大數據，流通的是BAT做的很好，看網絡安全的大數據是流通於互聯網，但是內網也有，攻擊的很多都是金融，甚至也有互聯網的生產系統，它是全方位的。在大數據裡首先是數據，數據要是不可讀、不可懂、不可認識的話，這就沒法用，必須有一個數據到信息的轉換過程，信息只有到挖掘出信息，很多數據挖出幾條有用的。

再把這個信息在機器學習、大數據關聯，最後轉化成知識，就可以輔助決策。在持續機讀，人在持續地參與，在原始基礎上再不斷循環，提煉更多的信息，更多信息再進一步提升轉化知識，這種機器學習的機制現在特別欠缺。數據到信息的挖掘大家做了很多，信息到知識的轉化這個就沒有了。

看生產大數據，這個領域現在發展非常快，包括醫療，機器學習通過12萬張膠片跟專家比對，靈敏度高達91%，都是在大數據機器學習的狀態下不斷利用機器數據轉化，轉化成知識。還有大家很熟悉的阿爾法狗，這個就是很熟悉的。很多像自然語言、圖象識別、自動駕駛，這些都和智能有很大的關係。

美國在2012年3月就強調大數據的研究和發展計劃，強調三種，一是機器學習，二是雲計算，三是眾包。機器學習提供數據分析能力，雲計算是提供數據處理能力，重包是提供數據標記能力。圍繞信息共享美國出臺了很多法案、紅綠燈規則、成立情報中心。這是美國國土安全部聯合對俄羅斯攻擊美國大選，共享規則是哪些可以在社會公開，哪些可以在內部公開，哪些在一定範圍公開，有一定的規則。大數據要做好規則，我們現在規則是確實的。

2013年美國APT-1報告針對5名軍人，這裡挖掘的是3000多個威脅指標，800多個DNS、40種惡意代碼。

圍繞大數據的可視化，然後不同的層面實現相關反欺詐能力、網絡安全能力、國防安全能力。

他們的能力已經很強，美國研究機構包括大學、政府、企業都在深度研究機器學習在網絡安全當中的應用，都強調機器學習。

我國的已有基礎，隨著信息化發，政府部門、行業數據初測能力得到增強。雲計算、大數據技術發展，對數據的處理、手機、存儲、傳輸、管理能力普遍得到了飛速提升。網絡安全數據採集方面滲透、檢測、逆向分析方面也有進展，特別是有些企業達到較高的水平。研究機構逐步重視威脅情報，整合自身的資源。

研究方向1：威脅情報與信息共享。威脅情報與信息共享是傳統安全的設備，以及大數據分析平臺產生機讀的情報，包括人員的研判，再結合廣域情報。信息共享的機種模式，包括分發式、自主式、輻射式，把信息共享融到一起，最後輔助決策。

研究方向2：態勢感知與預警，解決知識廣度的問題。在現在態勢感知更多是風險感知，這個比較多，但實際上目標並不明確，風險太大，打的很厲害，全球都在打，你不知道它對的是誰，是國家的態勢，還是某個地方，或者一個行業，或者一個企業的，到底它是什麼？有什麼關聯關係？發現數據是全世界都有，真正對電網、真正對銀行的關聯是什麼？一定要對準。還要有預警，才能知道我的系統是否出問題，沒出問題的話說明防禦能力強，攻擊這邊很厲害，這樣的態勢就是目的性必須清晰，能輔助決策。

研究方向3：基於機器學習對威脅分析，解決知識深度的問題。在這一塊看傳統沒有監督學習，出了一份報告，有個排名，轉化成信息。我們希望有監督學習，靠專業人員，安全專家，不斷優化模型，人工說這是攻擊、這是正常的、這是誤報，經過學習以後形成模型，更加準確。這是希望機器學習具備的能力。

下面是一些案例，勒索病毒，有一個初步形成，知道防禦的策略，指導怎麼做，有三種方法，這三種方法也是現在大家普遍使用的。還有一個企業從輿情上進行數據挖掘，很多報警是從國外報警過來，國外報警是在12號晚上20點左右，我們是在第二天早晨凌晨4點才開始預警反應。到13號下午，這個時間有15個小時，要加強輿情的研判，到現在都沒有了，可能是我們在微信裡，沒有在公開裡談論，這是從實際現象看的。從情緒上看，從12號到23號增長838倍。

總結與展望，在機制方面一定要依託規則，一定要打破信息孤島，促進信息共享，大數據沒有信息共享、沒有數據我們怎麼辦？

網絡安全大數據首先要解決。引入激勵機制，提高企業共享數據的積極性，哪怕數據可以交換、可以交易、可以賣，促進數據的交易、交換。在技術方面要加強可視化技術，態感，特別是機器學習、眾包模式，希望在標準上、在機器應用上能看到有這樣的東西，目前在市場上看得不是太多。在保障方面希望安全大數據與大數據安全同步發展，強化專業型技術人員、複合型科研人員的人才隊伍培養。

重磅福利！【2017中國互聯網+新商業峰會】，6月15-16日兩天3000人次，攜程創始人樑建章，嘉御基金創始人、前阿里巴巴CEO衛哲，分眾傳媒創始人江南春等嘉賓已確認出席，期待你的參與，限量鉅惠票等你拿！

本文系投稿稿件，作者：李京春；轉載請註明作者姓名和“來源：億歐”；文章內容系作者個人觀點，不代表億歐對觀點贊同或支持。

李京春：打破信息孤島，大數據要和網絡安全相融合

相關推薦