人工智能產品經理系列(七)深入淺出算法下篇

人工智能產品經理系列(七)深入淺出算法下篇

在深入淺出算法上篇中我們給大家簡單介紹了大數據算法的基本知識,以及在面對具體問題和實際應用場景中對大數據算法該如何選擇。今天給大家梳理一下在將算法落地應用時涉及到的數據收集,特徵選擇,算法優化更新等方面的知識。本篇側重大家在面對算法的實際應用時經常遇到的各種常見問題和對應解決方案。

(一)數據收集

人工智能產品經理系列(七)深入淺出算法下篇

在數據收集方案,相對傳統的信息系統的數據質量參差不齊和數據孤島現象,在大數據時代在數據收集方向面臨著更加嚴峻的問題。

首先就是數據的優先級問題,儘管大數據時代越多的數據可能在未來會帶來更強的競爭力和數據壁壘,但是在時機情況中,對數據的收集往往需要排數據的優先級。在預算投入有限、市場時機瞬息萬變的情況下,在實際部署數據採集平臺時是需要有優先順序的。在評價優先級的時候要考慮到行業數據的內在業務屬性含義、數據採集的可持續性以及現有數據質量的情況。

其次,就是建立統一的數據平臺,打破數據孤島的問題,在傳統的信息系統時代,不同系統之間的數據是很難互通的。因此為了打破數據孤島,在大數據時代,首先就是建立統一的數據平臺,各個業務系統和分析系統都是共享一份數據平臺,這樣對數據的存儲共享和高級分析提供了統一的數據基礎。既然建立了數據平臺就務必要考慮到數據治理,

再次,就是對外網數據。由於利用爬蟲技術爬取外網數據需要投入大量的人工成本和維護成本,因此選擇對自己切實有效的外網數據是至關重要的。

(二)特徵選擇

人工智能產品經理系列(七)深入淺出算法下篇

在面對具體的分析任務,需要使用數據平臺的的多維度數據時,如何確定選擇那些維度參與分析。

首先,需要確定要分析的問題,是使用基本的統計分析方法,還是利用機器學習的算法。當僅使用基本的統計分析就可以解決問題時,需要選擇對分析問題有明確影響力的維度,這樣在解釋分析的方案時更具有說服力。

其次,當面對的問題需要使用複雜的機器學習算法時,通常很難直接選擇出所需要的維度信息。面對這種問題時,比較折中的方法就是先選擇感覺跟分析的問題相關的維度信息,當發現選擇的維度信息過少時,可以加入一些暫時認為並不是直接有相關性的維度。很多時候數據中蘊藏的規律性信息是超過我們平時的邏輯關係的。

再次,在選擇維度信息時,需要考慮該維度信息的質量,是否維度統計的相對完整。如果該維度統計的信息缺失率比較高,或者這些數據的差異性較小,則該維度對於整體的分析貢獻是有限的。

(三)算法優化和更新

人工智能產品經理系列(七)深入淺出算法下篇

算法的優化和算法模型的更新,這部分相對來說更加專業一些,本文準備先從宏觀的方法梳理一下實際工作時遇到的具體問題。

首先,就是模型的更新問題,在設計好需要使用機器學習算法的產品功能後,需要考慮多長時間更新一次模型,一週,還是一個月;模型是否能隨著數據的收集變得更加精準,這些都需要在產品開發階段設計好。

其次,面對複雜的算法優化問題,很多人覺得這部分比較晦澀。不同的算法在實際的優化時,可能在參數選擇和調優的方法確實存在著算法獨立性,但是算法的調優和分析方式卻是有章可循的。例如在調節算法的準確度上,通常使用交叉驗證,F1測度等方法,在算法參數的調優上,常見的網格搜索等方法都是高校的分析方法。

最後,在算法優化的過程中,需要建立一套快速的驗證算法準確度的方案。包括選取數據量不能太多,會影響算法的運行時間;算法的測試平臺需要保證較快的運行,因為在實際的調優的情況下需要多次反覆的迭代等。

總結

本文對在算法實際落地時,需要在數據收集,特徵選擇,以及算法優化和更新方法上帶大家回顧了一下需要面對的具體的問題。本文只是簡單帶大家梳理一下通常面對問題時的主流方法,當然在實際工作中,面對具體問題時需要更加系統的設計和完善的方案。在後續的文章中會和大家繼續進一步深入討論。


作者介紹

李智博,機器學習算法工程師,數學專業出身,專注於算法應用多年,在算法工程化方面有著豐富的經驗,擅長將算法理論商用化。

特里,畢業於University of Melbourne,人工智能領域產品經理,專注於AI產品設計、大數據分析、AI技術商用化研究和實踐。

相關推薦

推薦中...