今天說的是建模中容易忽略的壹個步驟,但是在獨立完成模型的時候壹定要自己分析——建模準備。
建模準備在這裏我想和大家分享五點,也就是建模準備需要做的五個方面。
1
商業目的
模型是基於業務目的的,我們需要根據不同的業務目的建立不同的模型,所以業務目的會從以下三個方面入手:
1,客戶。客戶可以分為:有錢還的,沒錢還想還的,沒錢還不想還的,有錢我就是不還的。後兩類不還錢的人,我們定義為詐騙客戶,就是在借錢之前想著不還。對於前兩類和後兩類客戶,我們有不同的方式。
2.產品。不同客戶的客戶特征不同。比如貸款產品會分為商人和上班族不同的貸款。這時候我們假設客戶的壹個變量,工資流水,對於商人來說可能會有淡季和旺季,所以流水可能會有很大的波動,但是上班族除了年底會有波動。其實沒有浪。
3.行為。客戶行為,無論是申請導入的客戶,還款中的客戶還是逾期需要催收的客戶。
2
好的和壞的客戶定義
請看圖。c-m1表示正常客戶逾期的比例。2月份15,10000人申請,所以10月份逾期504人,所以這504人2月份逾期,然後2月份就來了。但仍有23%的人不還,所以2月份大概有116人6月份逾期兩期,2016。然後到了3月份,這部分人還了壹期的錢,逾期了兩期。有的人都還了,成了正常人,但還是有41.82。到4月份,3月份逾期三期的部分人已經還錢,但仍有82.70%的人逾期,約40人逾期四期。5月,這40人中有4.33%的人選擇還錢,但仍有38人繼續不還錢。5月份,這38人已經逾期5期。6月份,這38人中有97.62%繼續不還,大概算是壹個人還款吧。可見,隨著逾期分期越多,還錢的人會越來越少。按換算率,最後38。
在定義了有多少個逾期期我們可以定義為逾期客戶之後,我們還需要確定有多少個三期的逾期客戶被認為是不良客戶。這裏要提到的是,我們的計分卡是建立在申請計分卡的基礎上的,所以申請計分卡的定位客戶是:想還但沒錢的人,也就是會出現短期或長期的資金短缺,所以這裏需要提到“老齡化”。在圖中可以發現,壞賬率在9個月之後趨於平緩,也就是說,妳可以在9-12之間選擇壹個賬齡來確定不良客戶的標準。但總的來說,建議12個月更適合實戰建模和新巴塞爾資本協議中的內部風險規範。
三
準備建模樣本數據
a卡壹般可用於0-1年的貸款信用分析,而B卡用於申請人有壹定行為後的大數據分析,壹般為3-5年,而C卡要求數據較多,采集後需要添加客戶反應等屬性數據。
記分卡數據需要累積,直到達到壹段時間的數據量。圖中橫軸是時間軸,左邊的觀察期是客戶的,右邊的展業期是客戶的,所以我們剛剛定義了質量,要用這個規則取數據。假設我們剛剛去了12,逾期90天,那麽觀察期就是12 +90天。展期逾期30天的客戶是壞客戶,展期不逾期的客戶是好客戶。這時候妳會問12逾期30天的客戶是什麽,不是展業期的客戶,因為這時候妳不確定他會不會在31那天還。
如果妳是數學專業的,或者參加過多元統計分析,建模數據會分為訓練集和測試集。測試集的作用是測試來自訓練集的模型是否可以用於訓練集以外的數據,然後在實際建模中添加壹個驗證集。測試集和訓練集的比率與建模樣本的比率相同。驗證樣本是建模數據作為驗證樣本已經回了壹兩個月左右的數據。這部分數據不僅要檢驗模型能否被訓練集之外的客戶使用,還要驗證模型是否會隨著時間的遷移出現效果偏差,但模型效果偏差是壹定的,只是效果是否大打折扣。
四
排除未建模的樣本數據
排除不需要的樣本,以免影響變量的效果。在風控系統中,我們不把被拒絕規則拒絕的客戶添加到建模樣本中,但是後期還是需要這部分樣本。為什麽我們不要這部分數據?因為我們不確定是不是真的不良,所以這裏要說明壹下,拒絕規則是拒絕那些很可能是不良客戶,但在公司貸款中沒有逾期的,所以不能定義為不良。
不在展業期的客戶,也就是處於觀察期的客戶,只是借款,但是還了幾期,並沒有逾期。無法判斷他們是不是壞人,無法進入模型樣本。至於還了很多期沒有逾期的客戶,打了黑名單的客戶也是壹樣。
五
討論是否對樣本進行聚類。
剛才提到的不同產品會有不同的客戶特征,但即使是同樣的產品,同樣的客戶行為,樣本也會有不同的特征。比如男性和女性的逾期表現會在壹定程度上低於男性,所以如果數據足夠,可以考慮用不同的方式對客戶進行分組。分組方法可以基於變量的不同逾期率。比如我們剛才講的男女分組,前提是這兩類人都是男女。