首先我們來分析壹下LC.csv數據集,LC (Loan Characteristics) 表為標的特征表,每支標壹條記錄。***有21個字段,包括壹個主鍵(listingid)、7個標的特征和13個成交當時的借款人信息,全部為成交當時可以獲得的信息。信息的維度比較廣,大致可以分為基本信息,認證信息,信用信息,借款信息。
基本信息:年齡、性別;
認證信息:手機認證、戶口認證、視頻認證、征信認證、淘寶認證;
信用信息:初始評級、歷史正常還款期數、歷史逾期還款期數;
借款信息:歷史成功借款金額、歷史成功借款次數、借款金額、借款期限、借款成功日期
對於LC數據集我們提出以下四個問題:
1. 用戶畫像 ,包含使用平臺貸款業務的用戶的性別比例,學歷水平,是否為舊有用戶,年齡分布等信息。
2. 資金儲備 ,每日借款金額大概多少?波動有多大?從而公司每日需準備多少資金可以保證不會出現資金短缺?
3. 用戶逾期率 ,借款人的初始評級、借款類型、性別、年齡等特征對於逾期還款的概率有無顯著影響?哪些群體逾期還款率明顯較高?
4. 借款利率 ,哪些群體更願意接受較高的借款利率?
對數據進行清洗
依次檢查重復值、缺失值的處理,壹致化以及異常值,數據集很幹凈。
1.分析用戶畫像(性別、學歷、年齡、是否首標)
按‘性別’、‘年齡’、‘是否首標’、‘學歷認證’字段對‘借款金額’進行加總,用餅圖或柱狀圖將結果可視化
結論:
1.男性客戶的貢獻的貸款金額占到了69%,可能的原因是男性更傾向於提前消費且貸款金額較大。
2.非首標的金額占比達到66%,說明用戶傾向於多次使用,產品粘性較高。
3.大專以下學歷的貸款金額更多,但是由於可能有很多用戶並未認證學歷,所以數據存在出入。
4.年齡段在25-30歲之間的借款金額最多,而20-35歲的人群占比超過75%,是該產品的主力消費人群。
2.分析資金儲備
每日的借款金額大概多少?波動有多大?公司每日需要準備多少資金可以保證不會出現資金短缺?
結論:
1.每日貸款金額呈現的是壹個往上的趨勢,但是每天的波動較大。
2.每月貸款分析結論:從2015年1月到2017年1月,月度貸款金額呈現上升趨勢,上升速度隨著時間增快。
3.2017年1月每日的借款金額達到5204664元,標準差為2203394,根據3σ原則,想使每日借款金額充足的概率達到99.9%,則每日公式賬上需準備5204664+2203394×3=11814846元。
3.分析逾期還款率(借款人的初始評級、借款類型、性別、年齡、借款金額等特征)
逾期還款率 = 歷史逾期還款期數/(歷史逾期還款期數+歷史正常還款期數)
結論:
1.初始評級對於貸款者的還款能力有比較好的預測作用,EF兩級反轉可能是因為樣本數量較少,ABCD四個等級的平均逾期還款率都比較小,而EF兩級明顯增大,故公司對於這兩類貸款者要謹慎對待。
2.年齡對於逾期率的分布較為平均,25-30歲的年輕人可以重點關註。
3.APP閃電的逾期還款率明顯低於其他三種,故公司可以多考慮與“APP閃電”借款類型的合作。
4.女性的逾期率高於男性,可能是由於生活中男性收入較女性高造成的。
5.借款金額在2000以下的逾期還款率最低,2000-3000之間的最高。可以多考慮小額貸款降低逾期風險。
4.分析借款利率(借款人的初始評級、借款類型、性別、年齡、借款金額等特征)
哪些客戶群體更願意接受較高的借款利率?
結論:
1.年齡對於借款利率的分布較為平均,差異性很小。
2.初始評級的平均借款利率由小到大排列為ABCDFDE。
3.電商的借款利率明顯低於其他三種。
4.女性所能接受的借款利率低於男性。
5.借款金額對於借款利率的分布較為平均,差異性很小。
對於以上四個問題綜合分析LC數據集:
1、“男性”、“回頭客”、“中青年”是拍拍貸用戶群體的主要特征。
2、每日公司賬上需準備7,283,728元,方可保證出現當日出借金額不足的可能性小於0.1%。
3、“初始評級”為D的群體,借款利率與E,F大致相當,但其逾期還款率卻只有E,F群體的三分之壹,相同的收益水平下風險大大降低,應多發展評級為D的客戶或提高其貸款額度。
4、通過“app閃電”貸款的逾期還款率遠低於其他項,約為其他借款類型的三分之壹至四分之壹,而平均借款利率卻和其他項相差不大,證明“app閃電”是該公司優質的合作方,其所引流來得客戶質量很高,“拍拍貸”應與“app閃電”繼續加深合作。
5、“電商”中的貸款客戶,收益率水平明顯較低,逾期率卻不低,在該群體中的貸款收益小,風險大。
6、從性別上看,男性群體貸款利率較高,逾期風險較小,相較女性壹定程度上是更為優質的客戶,但並不明顯。
基於LCLP.csv 數據,分析用戶的還款習慣(提前壹次性全部還款 、部分提前還款以及逾期還款)的金額占比。
將數據集按借款金額分組,並按還款狀態和還款日期分成四種還款情況並進行統計:
(1)壹次性全部還款:其還款狀態標記為‘已提前還清該標全部欠款’;
(2)部分提前還款:其還款狀態標記為’已正常還款’,並且當期的還款日期早於到期日期;
(3)正常還款:其還款狀態標記為’已正常還款’,並且當期的還款日期即為到期日期;
(4)逾期還款:還款狀態標記為‘未還款’,‘已逾期還款’或者‘已部分還款’。
用百分堆積柱狀圖展示在不同年齡段(15 -20 ,20 -25 ,25 -30 , 30-35 ,35 -40 ,40+ ),不同性別( 男、女),不同初始評級(A-F),不同借款類型、不同借款金額(1-1000,1000 -2000,2000-3000,3000+)、不同期數(1-24)的走勢。
在根據借款金額分組中,得到結果如下:
A組(0-2000):總金額2.85千萬。(1)壹次性全部還款:占比 10.20%;(2)部分提前還款:占比60.95%;(3)正常還款:占比 16.23%; (4)逾期還款:占比 12.61%。
B組(2000-3000):總金額 7千萬。(1)壹次性全部還款:占比 10.21%;(2)部分提前還款:占比54.96%;(3)正常還款:占比 20.40%; (4)逾期還款:占比 14.43%。
C組(3000-4000):總金額 10千萬。(1)壹次性全部還款:占比 14.87%;(2)部分提前還款:占比50.96%;(3)正常還款:占比 21.90%; (4)逾期還款:占比 12.26%。
D組(4000-5000):總金額 7.22千萬。(1)壹次性全部還:占比 14.68%;(2)部分提前還款:占比50.70%;(3)正常還款:占比 22.78%; (4)逾期還款:占比 11.85%。
E組(5000-6000):總金額 5.11千萬。(1)壹次性全部還款:占比 15.70%;(2)部分提前還款:占比50.30%;(3)正常還款:占比 23.24%; (4)逾期還款:占比 10.76%。
F組(6000+):總金額 26.92千萬。(1)壹次性全部還款:占比 11.69%;(2)部分提前還款:占比39.38%;(3)正常還款:占比 39.79%; (4)逾期還款:占比 9.15%。
從對借款金額分組的統計結果以及上圖結果中可以看出:
(1)借款總額6000元以上最多,3000-4000其次,說明3000-4000元的借款金額是最多的。
(2)逾期風險在各金額組表現比較平均,其中2000-3000最大,6000+最小。
(3)隨著標的金額增加,部分提前還款的總金額比例在減少,正常還款的總金額比例在增加。
在年齡分組中,得到結果如下:
A組(15-20歲):總金額0.13千萬。(1)壹次性全部還款:占比 10.44%;(2)部分提前還款:占比62.90%;(3)正常還款:占比 13.11%; (4)逾期還款:占比 13.55%。
B組(20-25歲):總金額 8.60千萬。(1)壹次性全部還款:占比 13.43%;(2)部分提前還款:占比53.2%;(3)正常還款:占比 20.05%; (4)逾期還款:占比 13.32%。
C組(25-30歲):總金額 20.34千萬。(1)壹次性全部還款:占比 14.00%;(2)部分提前還款:占比47.67%;(3)正常還款:占比 26.69%; (4)逾期還款:占比 11.64%。
D組(30-35歲):總金額 14.94千萬。(1)壹次性全部還款:占比 12.36%;(2)部分提前還款:占比43.92%;(3)正常還款:占比 33.82%; (4)逾期還款:占比 9.88%。
E組(35-40歲):總金額 8.00千萬。(1)壹次性全部還款:占比 10.81%;(2)部分提前還款:占比44.39%;(3)正常還款:占比 34.67%; (4)逾期還款:占比 10.13%。
F組(40歲+):總金額 7.03千萬。(1)壹次性全部還款:占比 10.88%;(2)部分提前還款:占比42.85%;(3)正常還款:占比 37.21%; (4)逾期還款:占比 9.06%。
從對年齡分組的統計結果以及上圖結果中可以看出:
(1)拍拍貸的客戶群體中25-30歲年齡組的貸款金額最高,15-20歲最低;
(2)各年齡組的還款習慣大體壹致,從金額上來說,部分提前還款和正常還款是最常用的方式;
(3)逾期還款風險最高的年齡組為15-20歲組;
(4)25-30歲年齡組壹次性提前還款的金額占比最高。
在男女性別組中,得到結果如下:
男性:總還款金額 43.19千萬。(1)壹次性全部還款占比 13.16%;(2)部分提前還款占比45.78%;(3)正常還款占比 30.09%; (4)逾期還款占比10.97%。
女性:總還款金額 15.85千萬。(1)壹次性全部還款占比 11.42%;(2)部分提前還款占比48.64%;(3)正常還款占比29.11%; (4)逾期還款占比10.83%。
從對男女性別組的統計結果以及上圖結果中可以看出:
(1)拍拍貸男性客戶的貸款金額約為女性客戶的2.7倍;
(2)男性及女性的還款習慣大體上比較壹致,從金額上來說,部分提前還款>正常還款>壹次性提前還款>逾期還款;
(3)男性客戶壹次性提前還款的金額占比較女性為高;
(4)女性逾期還款的風險略低於男性;
(5)女性部分提前還款的金額占比略大於男性。
在初始評級分組中,得到結果如下:
A級:總金額2.43千萬。(1)壹次性全部還款:占比 10.95%;(2)部分提前還款:占比42.54%;(3)正常還款:占比 39.73%; (4)逾期還款:占比 6.78%。
B級:總金額 12.98千萬。(1)壹次性全部還款:占比 7.68%;(2)部分提前還款:占比37.45%;(3)正常還款:占比 47.65%; (4)逾期還款:占比 7.22%。
C級:總金額 29.27千萬。(1)壹次性全部還款:占比 14.19%;(2)部分提前還款:占比49.92%;(3)正常還款:占比 25.00%; (4)逾期還款:占比 10.89%。
D級:總金額 13.14千萬。(1)壹次性全部還款:占比 14.59%;(2)部分提前還款:占比49.27%;(3)正常還款:占比 21.85%; (4)逾期還款:占比 14.29%。
E級:總金額 1.08千萬。(1)壹次性全部還款:占比 13.21%;(2)部分提前還款:占比40.97%;(3)正常還款:占比 22.91%; (4)逾期還款:占比 22.91%。
F級:總金額 0.15千萬。(1)壹次性全部還款:占比 10.75%;(2)部分提前還款:占比41.24%;(3)正常還款:占比 20.68%; (4)逾期還款:占比 27.33%。
從對初始評級分組的統計結果可以看出:
(1)B級客戶借款總額最多,占到了大約50%的金額。B、C、D級客戶是借款的主力軍。
(2)提前壹次性還款的占比相對比較平均,其中D級最大為14.59%。
(3)逾期風險隨著級別而呈總體增加趨勢,F級客戶的逾期占比達到了27.33%。
(4)部分提前和正常還款還是占到了大多數。
(5)總的來說,初始評級具有重要的參考意義。
在借款類型分組中,得到結果如下:
電商:總金額8.57千萬。(1)壹次性全部還款:占比 4.22%;(2)部分提前還款:占比26.93%;(3)正常還款:占比 62.07%; (4)逾期還款:占比 6.78%。
APP閃電:總金額 7.45千萬。(1)壹次性全部還款:占比 8.96%;(2)部分提前還款:占比61.13%;(3)正常還款:占比 18.68%; (4)逾期還款:占比11.24%。
普通:總金額 23.47千萬。(1)壹次性全部還款:占比 17.16%;(2)部分提前還款:占比45.09%;(3)正常還款:占比 26.10%; (4)逾期還款:占比 11.65%。
其他:總金額 19.56千萬。(1)壹次性全部還款:占比 12.46%;(2)部分提前還款:占比51.33%;(3)正常還款:占比 24.43%; (4)逾期還款:占比 11.78%。
從對借款類型分組的統計結果可以看出:
(1)普通借款類型的借款金額總數最大,其次是其他,電商和APP閃電差不多。
(2)逾期風險電商最低,為6.78%。其他三種類型差不多。
(3)部分提前和正常還款還是占到了大多數。值得註意的是除了電商,其他三種類型的部分提前還款都占比很大。
從對期數分組的統計結果可以看出:
(1)借款金額是隨著期數增加呈現出下降的趨勢。
(2)不同的還款行為在不同的借款期限下的表現差異比較大,部分提前還款和正常還款是最常用的方式;
(3)逾期風險隨著借款期限變長而呈總體增加趨勢,期限為20個月的逾期金額占比為最高,達到了57.30%;
(4)期限為13個月的提前壹次性還款占比最高,達到了16.77%。
(5)借款期限太長的樣本數量太少,不能排除偶然性。
在不同等級(A-F)、不同借款期數(1-24)和不同借款金額(0-2000,2000-3000,3000-4000,4000-5000,5000-6000,6000+)等,隨逾期天數增加而呈現的走勢。
1)x軸為逾期天數,y軸為金額催收回款率,不同參數對應不同曲線;
2)催收回款的定義為逾期90天之內的逾期還款。
不同等級(A-F)隨逾期天數催收還款率的走勢大致相同,也就是大部分人都在逾期十天之內還款,說明他們有可能忘記還款;特別是在4、5天的還款的人數和金額最多。
不同借款期數(1-24)的金額收回款率隨逾期天數的趨勢沒有明顯的規律。在12期及之前大部分人都在逾期十天之內還款,特別是在4、5天的還款的人數和金額最多。 但是13之後呈現出10天之後回款率的依然很大。也有可能是因為數據量導致異常值凸顯,但是也說明了借款期數長的回款率不夠穩定。
對不同借款金額對於進入催收回款率影響較大,借款金額越多,逾期的可能性就越大。
LCIS數據提供了該客戶投資的從2015年1月1日起成交的所有標。包括投標記錄和還款狀況。請計算並畫出該投資人從2016年9月開始到2017年2月,每月月底的累計收益曲線。
調用draw()函數,可以對任壹用戶的數據畫出累積收益曲線。