壹張卡使用:
B卡是在申請人有了某種行為後,用大數據進行分析,壹般是3-5年。(多變量邏輯回歸)
b卡用途:
C卡需要更多的數據,采集後需要添加客戶反應等屬性數據。(多變量邏輯回歸)
評分卡計算:在建立標準評分卡之前,我們需要選擇幾個評分卡參數:基本分數、PDO(雙倍比率的分數)、好壞比率。這裏我們以600為基本分,PDO是20(好與壞的比例每高20分翻壹倍),好與壞的比例是20。
如果極值占比較高,就要分析是否應該歸為多個類別。
四價值判斷標準
Pyi是該組響應客戶(在風險模型中,對應違約客戶,簡而言之,指預測變量為“是”或1的個體)在所有樣本中的比例,pni是該組未響應客戶在所有樣本中的比例。
悲哀:
四:
等距包裝
卡方分裂
最優裝箱:決策樹裝箱
這裏應該根據不同的指標會做出不同的方框,根據ks,或者給定基尼系數,信息熵。
壹個好的特性的優點是什麽?
穩定性高,區分度高,差異性大,商業邏輯和可解釋性強。
缺失值補充
異常值處理
數據分布分析
優點:簡單、穩定、可解釋、技術成熟、易於監控和部署。
缺點:不能有數據缺失;必須是數字特征,需要編碼;準確率不高
優點:對數據質量要求低,易於解釋。
缺點:準確率不高
優點:精度高,穩定性強,泛化能力強,不易過擬合。
缺點:解釋困難,部署困難,計算量大。
其他穩定性指標:得分轉移矩陣、肯德爾等級相關系數。
Ks(10等份):
TP:實際為1,預測為1的數。
FN:1的數字,預計為0。
FP:實際為0,預測為1的數。
TN:實際為0,預測為0的數。
真陽性率,TPR),計算公式為TPR=TP/ (TP+ FN),
另壹個是假陽性率,FPR),計算公式是FPR= FP/(FP+TN)。
十個師之後:ks=Max(TPR-FPR)
1,辨析:主要有KS和GINI指標,了解KS的定義和用法。
2、準確性:主要是roc曲線和AUC指數,了解AUC的定義和用法。
3.穩定性:主要有PSI指標。理解PSI的定義和用法。
auc和ks的關系?
有人說auc是衡量整個模型排序能力的指標,KS是衡量壹個段的區分能力的指標。
以邏輯回歸為例。模型訓練完成後,每個樣本會得到壹個類概率值(註意是相似類)。將樣本按此類概率值排序後,分成10等份,每份分別計算其真率和假陽性率,再計算累積概率值。
AUC值是ROC曲線下的面積,ks值是ks曲線中兩條曲線間的最大距離。
ROC值壹般在0.5-1.0之間。值越大,模型判斷的準確性越高,即越接近1越好。ROC=0.5表示模型的預測能力與隨機結果沒有區別。
KS值表示模型區分+和-的能力。該值越大,模型的預測精度越好。壹般來說,KS & gt0.2可以認為該模型具有較好的預測精度。
roc,auc,
縱軸:TPR=正例配對概率= TP/(TP+FN),其實就是召回率。
橫軸:FPR=負例誤差概率= FP/(FP+TN)
電梯
洛倫茲曲線
驗收:測試、分級、限額設計、風險定價、ABtest設計等。
僅適用於記分卡申請。
當建立應用記分卡時,
粗略地看了壹眼:
策略系統:
規則類型:
參考資料:
信用記分卡模型
信用風險與記分卡研究