獨家|金融行業數據分析與建模的風控方法思享會紀要

金融 大數據 汽車保險 數據挖掘 THU數據派 2017-05-16

獨家|金融行業數據分析與建模的風控方法思享會紀要

獨家|金融行業數據分析與建模的風控方法思享會紀要

[導讀]清華大數據思享會數據分析系列之“金融行業基於數據分析與建模的風控方法”於2017年4月6日下午在清數D-LAB成功舉辦。本次思享會邀請了清數D-LAB首席數據科學家、美國中佛羅里達大學統計係數據挖掘專業主任、教授王中慶老師分享了他在金融行業數據分析與建模的案例,特別介紹了數據分析與建模的目的、數據基本情況、數據質量及處理方法、模型工具選擇和模型表現與應用等內容。

獨家|金融行業數據分析與建模的風控方法思享會紀要

來自銀行、保險、小貸、互聯網金融、消費金融、央行徵信中心及其他金融大數據相關領域的30餘位朋友參加了本次活動,大家結合各自的經驗和背景積極分享和討論業界的主要問題、現有解決方法等。會議紀要如下:

分享要點

數據基本情況描述:原始數據共十幾萬條,其中五六千條逾期數據,主要數據字段40餘個,衍生數據字段30餘個,部分外部數據。

數據分析的目標主要包括預測客戶信貸違約概率、識別低風險高價值用戶、給營銷和市場發掘新用戶提供依據三個方面。數據分析的結果是要服務於公司的業務人員,不僅僅是技術的問題,最終是要為公司發掘更多的新客戶,降低公司運行的風險,長期使用模型來幫助公司運營,為企業創造更多的商業價值。

數據處理分析過程主要問題及對策:

  1. 缺失值:針對數據處理過程中存在的缺失值問題,首先需要理解字段的含義,有些數據的缺失並非無意義的缺失,相反可能代表的是“正常”狀態。

  2. 離群值:個別字段數據可能少數幾個異常值,數據建模分析過程中需要特別注意隱藏在數據中的異常值,通常需要將異常值剔除。

  3. 高基數變量:這類變量對決策樹類的模型的影響不大,但對於神經網絡類的模型影響非常大。

  4. 非線性數據:數據分析建模過程中,需要注意數據的非線性關係,對於非線性數據,使用線性模型的效果表現的瓶頸會很明顯。

  5. 數據的時間維度:在不同的時間上,客戶的屬性可能發生變化,忽略數據的時間維度,模型的準確性可能受到嚴重影響。

模型選擇方面,建議嘗試多種不同模型,預設單一模型的效果往往不佳,也通過數據本身的特性選出最合適的模型。隨著時間的推移,數據的特性可能也會發生變化,模型也需要進行相應的調整,或者是調整參數,或者是變更模型,來適應數據的變化,以保證結果效果、穩定性和準確性。

建模工具的選擇方面,可用的有SAS、Matlab、Mathematica 等商業軟件,也有Python、R等開源工具,各種工具都有不同的特點,適用於不同的數據,建模過程中可以嘗試用不同的工具,讓數據反饋最合適的工具。

獨家|金融行業數據分析與建模的風控方法思享會紀要

討論要點

  • 反欺詐是金融風控領域重要問題,騙貸利益相當可觀,欺詐方式也層出不窮,特別是互聯網借貸中不能面對面核實借款者,部分中介機構偽造客戶信息的現象也時常發生,部分借款者或者詐騙團伙甚至可能通過“養賬戶”的方式提高信用額度之後進行騙貸,類似欺詐行為的有效甄別,是金融風控的反欺詐的重要內容。

  • 由於數據的獲取困難,線上數據的真實性存疑,技術手段和數據分析能力欠缺,許多小貸機構仍然依靠傳統的線下徵信和風控手段,主要是根據借款者提供的證明材料、信用卡賬單等,以及配合實地走訪瞭解等方式,建立風控和反欺詐規則等進行線下人工比較嚴格的篩查,雖然風控成本較高,但總體效果基本可以,不過同時也拒絕了許多潛在的合格借款人。

  • 目前在風控方面結合大數據的技術和方法,在前端,可利用人臉識別,以及通過各種數據接口可以對借款申請人的各類信息進行核實;在後端,通過網銀、電商等獲取用戶消費以及交易行為數據,並建立平衡卡模型等,通過技術改進貸款審核流程。

  • 當前大數據風控手段仍處於發展階段,數據共享、市場監管和隱私保護等問題需要加強立法完善。

  • 車險業務平臺覆蓋了全國各個保險公司的車險業務,現在根據歷史理賠數據等,研究推行車險業務的反欺詐系統,針對高價值車的碰磁事件分析等;大數據在車險定價改革方面的作用,包括區分營運車輛和自駕車輛,以及按年付費和按里程付費的支付方式差異等模式;車主也可以利用相應的大數據產品確定投保的車險險種等。

  • 稅務數據在金融風控領域的作用顯著,對稅務體系內部的團伙作案退稅可以利用多層次網絡的大數據分析發現,前些年鋼貿行業崩盤事件引發的銀行信貸風險,在稅務數據中實際早有發現,目前也已有部分銀行的小微貸款已經跟稅務數據對接進行風控。

相關推薦

推薦中...