案例：大型持牌消費金融公司——智能風控體系構建

機器學習人工智能金融大數據數據猿 2017-06-13

本篇案例為數據猿推出的大型“金融大數據主題策劃”活動（查看詳情）第一部分的系列案例/徵文；感謝氪信的投遞

作為整體活動的第二部分，2017年6月29日，由數據猿主辦，上海金融行業信息協會、互聯網普惠金融研究院聯合主辦，中國信息通信研究院、大數據發展促進委員會、上海大數據聯盟、首席數據官聯盟、中國大數據技術與應用聯盟協辦的《「數據猿·超聲波」之金融科技·商業價值探索高峰論壇》還將在上海隆重舉辦【論壇詳情丨上屆回顧】

在論壇現場，也將頒發“技術創新獎”、“應用創新獎”、“最佳實踐獎”、“優秀案例獎”四大類案例獎

來源：數據猿丨投遞：氪信

當下，普惠金融持續爆發式增長，2015年中國消費信貸規模達到19萬億，同比增長23.3%，預計2019年將達到41.1萬億。

風口背後，一方面是傳統金融未服務到的人群基數龐大，且長期缺乏金融產品，因此普惠金融產品是剛需，規模潛力巨大，滲透率低；另一方面，當下智能手機普及，新交互方式極大提升信貸效率，且數據爆發時代使得海量數據獲取成本和難度大幅降低，在此之上運用技術對龐大人群進行定量風險分析和匹配金融服務不僅成為可能，而且規模效應明顯。

案例：大型持牌消費金融公司——智能風控體系構建

因此，整個金融業態正在技術、資本和市場的共同作用下發生數字化重構。面對劇烈變化的市場競爭格局和趨嚴的監管政策，金融機構紛紛通過引入先進技術強化其核心競爭力，提升其原有體系的效率。

其中，尤為關鍵的是構建其自動化的數據能力，將專家的深厚經驗賦能機器，讓機器刻畫紛繁數據與目標的複雜關係，以搶佔消費金融爆發窗口期。

氪信在此背景下，與多家大型領先的金融機構深入探索人工智能在消費金融領域的成熟應用，針對客戶核心需求已形成包括數據、模型、引擎在內的一整套完整解決方案。

週期/節奏

項目於16年10月開始，17年2月結束。

客戶名稱/所屬分類

大型持牌消費金融公司·風控

任務/目標

由於新金融業務的迅速普惠化，金融客戶也面臨著嶄新的挑戰和需求。

一方面由於客群下沉，可獲得的用戶信息愈發受限，數據質量參差不齊，傳統風控經驗無法直接應用，急需利用先進技術來提升風控能力；

另一方面互聯網金融往往小額量大，基於人工的風控成本過高，用自動化的數據智能風控體系來提升整個流程的效率也是必然的發展趨勢。

因此，如何在線上信用貸場景搭建一整套從數據到算法到平臺的數據架構體系，並在風控反欺詐和授信業務中得到具體的落地應用是本次案例的最終目標。

挑戰

從業務實施落地的角度看，客戶面臨的挑戰主要可以分為三個方面，分別是“數據”、“怎麼用”和“跑起來”的問題。

首先，針對第一個“數據”挑戰，本質是該用哪些數據的問題，現在金融場景可用的數據早已遠遠超出傳統強徵信數據的範疇，我們可以看到闢如互聯網行為、電商、社交、運營商等廣泛的大數據都在金融領域內嶄露頭角，但結合到客戶不同業務和場景，哪些場景該用哪些數據？不同數據在其中的價值又有幾何？具體能夠表徵哪些維度的風險？

這些都需要大量摸索的實踐，僅靠金融經驗，或者技術本身，任何一個都無法單獨解答這些問題。而這個問題的答案恰恰很多時候就直接決定了業務的成本和收益。

其次，針對“怎麼用”問題，這確實是當下技術給我們帶來提升最大的點，也是最痛的點。事實上，由於數據的不同，這相當於重構一套與傳統風控體系並行的數據架構體系。

在這過程中，如何將海量稀疏、超高維、低飽和的大數據與風險掛鉤？如何挖掘非結構化數據價值時窮盡風險？如何最大化技術和現有業務的結合深度？即使在當下深度學習、硬件框架取得突破性發展的今天，真正落地為金融風控體系的工業應用，轉化為巨大的商業價值，我們都還有較大的鴻溝需要趟過去。

把難點分解，可以看到需要三個因素的合力作用，包括成熟的機器學習技術、深厚的金融領域知識以及支持機器學習建模的平臺，缺一不可，而對金融機構來說，這一整套在大數據生態體系上的經驗尚不豐富。

第三，針對“跑起來”的問題，試想，我們有了清晰的數據認知，結合不同場景和風控業務我們也摸索了一套經驗證的數據使用方式，但如何與我們的業務系統對接，成為實時的數據服務？這還需要一整套支持機器學習特徵、模型計算的引擎。這其中也涉及很多方面的考慮，包括系統架構、操作管理、可靠性、可擴展性、運維監控以及模型自迭代等等。

最終，如何實現從數據、特徵到規則、模型持續優化的閉環系統？如何平衡靈活性和功能性以保證業務能夠快速落地並取得實際的效果提升？這其實也超出了傳統風控引擎的能力範圍。

實施過程/解決方案

上述三個方面的挑戰貫穿風控的各條業務線，此次案例的解決方案著眼於風控核心的反欺詐和授信兩個階段來闡述如何解決這幾個問題，並構建一整套完整的申請貸前風控體系。

反欺詐

首先是反欺詐，現在線上欺詐風險變化非常頻繁，以往單一的個體欺詐已迅速演變成有組織、有規模的團體欺詐和相應的關聯風險。

傳統反欺詐手段包括驗真、客戶信息邏輯校驗、外部信息對比校驗、灰黑名單過濾等方式主體還是在識別個人風險，無法根據千絲萬縷的關係挖掘潛在的群體欺詐，這需要基於網絡的全局風險識別能力來覆蓋風險漏洞。

氪信一方面針對機構的存量數據，利用闢如申請資料、運營商等數據構建複雜網絡，如圖所示，每一個申請人、id、手機號、設備、地址等都是網絡中的實體，而諸如申請人擁有設備、手機號呼叫手機號等有向聯繫就是圖中的邊，邊的權重為關係的緊密程度。

另一方面氪信採用先進的動態社區挖掘算法（如LouvainCommunityDetection）實現風險分團，並利用無監督PageRank算法等計算相應的全局風險特徵和局部風險特徵，在此之上訓練基於有監督算法的集成機器學習模型。

事實上，這不僅在方法論層面有所突破，相對以往基於有限維度的網絡和規則模型，在最終識別效果上也有較大的提升。

案例：大型持牌消費金融公司——智能風控體系構建

另外，在系統層面，整個體系的“跑起來”和持續優化非常重要。氪信一方面提供圖挖掘查詢引擎，支持實時的查詢相應，實時的網絡關係更新，並輸出查詢實體的風險等級、解釋以及風險關係網絡展示；另一方面氪信也引入主動式預警和人工研判機制，將模型結果和專家經驗實時地反饋到網絡反欺詐產品，使得模型不僅能夠甄別事實，更應該是學習到專家認定為欺詐的經驗，從而真正形成完整的數據和模型優化閉環。

案例：大型持牌消費金融公司——智能風控體系構建

授信建模

第二塊合作是授信建模，由於線上信用貸的產品形態決定了整個客群相對次級，大部分為央行白戶，因此機構能夠獲取到的數據非常有限，往往僅限於APP、運營商、場景數據及少量驗真事實類數據等，本質上這個業務的建模就是基於弱數據的風險建模過程，氪信基於金融場景沉澱形成的金融知識圖譜，提供一系列從數據到特徵到模型的全維知識體系。

建模的第一步是特徵工程，眾所周知，特徵是機器學習建模的原材料，對最終模型的影響至關重要。特徵加工和衍生工作越完備，那麼構建的機器學習模型效果越好。但是，面對不同數據，不同業務場景，特徵加工衍生往往是最耗時間與資源的工作。

尤其在弱數據方面，充斥著大量文本、時序類數據，人工特徵定義的方法天然存在較大侷限性。闢如在文本上，專家可根據豐富的經驗計算相應的統計量、tfidf指標等等來提取特徵捕捉一些敏感詞等，但不可置否的是，由於線上風險的演化頻繁，專家總有無法抓到的新黑產術語，這帶來了風險上無法窮盡的難題。

氪信引入基於深度學習的特徵提取框架，使用不同的深度學習模型來擬合不同的數據類型，自動從大量龐雜的非結構化數據中生成高質量的深度學習特徵。

如下圖，通過將諸如文本等數據轉化為向量，用深度學習提取向量空間中的關係可自動生成抽象的特徵表徵，進一步我們就能計算語義相似性，並運用分類器網絡實現非結構化數據與金融風險的深度掛鉤。

案例：大型持牌消費金融公司——智能風控體系構建

事實上，深度學習在這塊的價值是在於對金融專家經驗體系的補充，在處理人工難以固化為特定風險知識或規則的基礎上予以最大彌補。另外，比較意外的是，機器生成的特徵在模型效果最後的提升已顯現出較大的提升，也驗證了深度學習對於挖掘深層時序關係，文本內容深層含義在超越人工定義深度方面的價值。

案例：大型持牌消費金融公司——智能風控體系構建

具體模型方面，我們知道在基於弱數據的特徵加工和衍生後，機構往往會面臨非常多的特徵維度，少則幾千，多則上萬，且非常稀疏、低飽和。這遠遠超出傳統風控基於評分卡體系的建模能力範圍。

氪信引入複雜集成模型來解決這一問題，集成模型從“voting”的思想去簡單理解，就是針對不同類型的數據我們選用最合適的子模型來處理，然後每個子模型投票做出決策。

相對單一模型有限的預測能力，“好而不同”的模型集成效果明顯會卓越很多，此外無論從穩定度、容錯、還是抗擾動能力來講，集成模型也都在性能和泛化能力之間取得了極好的平衡。

案例：大型持牌消費金融公司——智能風控體系構建

複雜集成模型框架除了在當前場景和業務的建模中有較好的表現，它的另一個重要價值還在於領域適配方面的能力，任何一個單獨領域子模型都可以快速遷移應用到新的業務應用上，對機構在戰略層面實現場景間的遷移和業務冷啟動階段都可以發揮極其重要的作用。

系統層面，為了能夠支持整個機器學習模型體系“跑起來”的所有功能，氪信也落地了一整套基於大規模機器學習框架在線執行引擎，從數據接入、加工處理、得出結果再到監控自迭代，整個都是自動化的過程。現在線上信用貸的業務量增長非常快，控制風險、解放人力已成為最緊迫的需求之一，這也是這套數據智能一體化引擎的核心價值所在。

結果/效果總結

最後，在整個線上信用貸場景實踐下來，經過跨多個時間段多批次的驗證，可以看到，效果上還是有非常直接的提升。僅基於有限的弱數據，模型層面，性能相比傳統模型提升了大約70%，最大ks值始終穩定在0.3以上，風控維度也從之前的數十維擴展至2600多維；業務層面，經測算，壞賬率也有46%的直接下降。

企業介紹：

氪信CreditX是一家獨立的第三方金融人工智能公司，致力於在金融風險領域運用高維數據處理和機器學習技術，為企業和金融機構提供場景化的風控解決方案和產品體系。

氪信提供一整套基於大規模機器學習框架的自動化風控引擎和數據風險服務，旨在風控業務的整個工作階段提供完整的功能服務。前者包括先進的建模平臺和在線執行引擎，解決不同場景下的風控智能化問題；後者基於氪信圖譜，利用複雜集成建模技術輸出場景化的數據風險服務。

氪信成立於2015年，創始團隊均是來自微軟、雅虎、eBay、PayPal、阿里巴巴、華為、攜程、央行核心業務的頂尖菁英。創始人朱明傑畢業於中科大少年班系，是中科大和微軟亞洲研究院聯合培養博士和德國馬克思普朗克研究所博士後。曾師從德國馬克思普朗克研究所計算機科學研究所所長，ACM/IEEEfellow國際大規模數據庫協會(VLDB)主席GerhardWeikum教授，合作大規模語義圖挖掘，領導歐盟進化知識計算項目。在雅虎研究院從事搜索科學，支撐雅虎搜索和廣告的機器學習排序、用戶意圖理解以及個性化系統。在eBay擔任搜索科學高級數據科學家。後加入攜程，擔任數據總監，從無到有的組建攜程大數據部門，負責攜程的基礎數據平臺和機器學習人工智能的應用。

短短一年，氪信產品體系已服務於消費分期、小微金融、現金貸、信用卡、供應鏈等數十個垂直場景，且驗證效果顯著，合作客戶遍歷中國民生銀行、招商銀行、中國平安、中銀消費金融、招聯消費金融、眾安保險、點融網等頂尖機構和持牌消費金融公司。

短時間內實現技術在金融領域的巨大價值轉化也使氪信屢獲資本市場青睞，截至目前，氪信已完成招商局創投領投、美國中經合集團共同投資的B輪融資，前兩輪投資方火山石資本、真格基金也對本輪融資投資加碼。

歡迎更多大數據企業、大數據愛好者投稿數據猿，來稿請直接投遞至：[email protected]

案例：大型持牌消費金融公司——智能風控體系構建

相關推薦