壹、案例背景
Thera Bank是壹家擁有不斷增長客戶群的銀行。這銀行中大多數客戶的存款規模都是不壹樣的。由於貸款業務的客戶數量很少,所以銀行希望有效地將存款用戶轉化為貸款用戶以此擴大貸款業務量的基礎,以帶來更多的貸款業務,並在此過程中,通過貸款利息賺取更多。
因此,該銀行去年為存款用戶但未辦理個人貸款業務的客戶開展了壹項推廣活動來 促使其辦理個人貸款業務 ,有部分客戶通過此活動已經辦理了相關服務。這時的零售營銷部門希望 制定更好的策略去定位營銷 ,以最小的預算提高成功率。該部門希望識別出更有可能購買貸款的潛在客戶,提高轉化的成功率,降低營銷的費用。
二、數據理解
本數據集總計5000行,14列數據,對應字段理解如下:
總體來說,該數據集主要由Personal Loan貸款結果以及壹系列用戶的身份資產信息等構成
三、數據觀察及清洗
本文數據清洗流程上仍然分為初步觀察和清洗兩步,數據觀察主要通過以下幾步:
針對異常數據類型及數據問題進行修正,修正後重新進行描述性統計,觀察數據總體特征
整體思路:
1 此次活動效果如何?促成了多少人進行貸款?
2 什麽樣的人更傾向於進行貸款
活動效果即使 是否達成該目標 ,本案例中的目標是進行貸款,因此只需要統計Personal Loan 中貸款和沒有貸款的人數即可
通過此次活動,5000名客戶中有 480名客戶 開通了貸款業務,占比約10%左右,且該活動僅針對未辦理貸款的用戶開展,總體來說,業務提升了10%以上,效果已經相當不錯
要分析貸款用戶的潛在影響因素,就是要將是否貸款Personal Loan這壹字段與其他字段求出 相關性 (corr()函數),找出相關系數最大的值並展示
在此基礎上進壹步劃分畫板,將各列與personal loan(是否貸款)相關系數進行可視化展示,得到如下結果
從圖中可以發現:
1.影響貸款的強相關變量有:收入、每月信用卡消費額、是否有存款賬戶
2.影響貸款的弱相關變量有:教育程度、房屋抵押價值、家庭人數
3.其余因素如郵編、是否有網銀、信用卡、證券賬戶均對貸款無太大影響
4.年齡和工作年限盡管也無顯著影響,但由於其為連續性變量,不排除某壹區間內人群對貸款需求較大,後續需進壹步分析
在上壹步的基礎上將影響貸款的變量進壹步分析,根據變量性質分開處理
將本案例中的變量分為定性與定量,分別探究其與是否貸款的影響,本案例中的定向變量主要有是否存在銀行存款賬戶、教育程度、家庭人數等
由結果知,開通了存款賬戶的用戶申請貸款的可能性相較於未開通存款賬戶的用戶整整差了六倍,因此想辦法讓客戶開通存款賬戶未嘗不是提高貸款率的手段之壹
隨著學歷升高,申請貸款的比例增加,說明 高學歷用戶更傾向於成為貸款用戶 ,側面反映出學歷越高,越能接受超前消費的消費觀,越容易成為貸款的潛在用戶
家庭人數3-4的客戶相對於1-2的客戶申請貸款可能性更高,側面反映出隨著家庭成員增加,經濟壓力逐漸加大,貸款的潛在需求增加,更傾向於使用該業務
本案例中主要對定量變量中的年領、收入、信用卡還款額和房屋抵押貸款與是否開通貸款的關系進行探究,由於是定量變量,區間為連續區間,相對於定性變量,為便於了解數據全貌,此類變量應針對不同區間分別統計
綜合來看,貸款用戶和非貸款用戶年齡差距不大,從具體年齡層來看,32.0-39.0這壹年齡段客戶更傾向於貸款
其余定量變量如收入、房屋抵押價值、每月信用卡消費額的分析過程與年齡這壹變量基本相同
總體來看,高收入群體較低收入群體更傾向於貸款,當收入超過82,貸款人數將達到之前的5倍,超過98,貸款意願達到17%以上,超過170,貸款意願達到壹半以上,因此收入越高,貸款業務意向越強烈
當房屋抵押價值超過109.5後,貸款意願明顯提高,總體來看,房屋抵押價值越高,客戶越傾向於貸款
大部分貸款用戶信用卡消費額平均值接近4,而未貸款用戶則接近2,足足是兩倍之多,而從用戶分層來看,信用卡消費額超過2.8千美金之後,貸款概率提升了4倍,超過6千美金,會回落到0.3左右,較2.8千美金之前有顯著提升,因此要重點把握每月信用卡消費額大於2.8千美金以上的客戶