這是好幾年前寫的壹篇文章,今天突然翻出來看到,我覺得對於很多在做數據挖掘的朋友有壹定參考。
聽了幾位從公司幾位同事和外面專家介紹關於數據挖掘、數據模型的壹些東西。總的來說,很有收獲,當然收獲並不在具體的技術細節上。更多是在看法,理念上。
我以前也搞過很多模型,從最基本的聚類、決策樹、logisitic、回歸分析、生存分析、神經網絡,還有市場調研中壹些聯合分析、感知分析、因子分析/主成分分析,當然還有更高級壹點的結構方程。在期貨公司呆的壹年中,還搞過計量模型:ARMA簇、ARCH簇、VaR等,當時對自己產生的模型,感覺很不自信。因為當時的模型識別率指標(例如:R方,並沒有達到傳說中在學校做論文或者平時玩模型的90%以上),感覺這個模型就是不好的,並不完美。
去年抱著學習的心態,去壹家數據量極其豐富的互聯網公司,想去看看大公司玩數據到什麽程度,雖然以前和許多牛人們交流過,但當時壹直覺得應該不是這麽簡單。
到新公司後同幾位做modeling的同事和聽了外部專家的演講,某種程度上我釋然的。感覺自己以前在做模型的時候,更多是在做學術研究壹樣,也許和我是壹個追求完美的人有關。
例如:模型成立的假設條件,與變量選擇。
模型的假設條件,對數據的分布要求;
模型的變量選擇,以及變量的各種預處理;
針對最終的目的理論上可以使用的模型,都去嘗試。比如:會員流失問題:決策樹、邏輯回歸、生存分析,我都會去嘗試使用,根據其最終的LIFT值最大的,然後選擇。
但實際上,從幾位同事與朋友的介紹來看,邏輯回歸是許多公司是都在用的模型,
為什麽不用更“高級”,更先進的模型呢?原因有二個:
第壹個:模型的健壯性。這些模型都是被之前實踐證明是最好的,或者性能相對來說最穩定的。衡量的指標不外乎:穩定性、可解釋性(這點在商業很重要)、簡單性。
第二個:商業運用,已經是流程式的過程,不會輕易去改變,就是妳生產線上壹樣。模型的輕微改變可以要牽動許多方面,是壹個大工程。
從與他們的交流來說,我好像忘記了壹個東西:這些都是為商業服務的,商業過程不要太復雜,最好的商業模式往往是最簡單,不是嗎?
我的觀點:也許和自己的工作經歷有關,但是我覺得對於壹個數據分析師或者是數據建模師來說,雖然妳用的很簡單。但是妳掌握的東西應該很多,很復雜,也正是因為有這些基礎,妳才能選擇最好的模型,所以在玩數據挖掘或者數學建模為商業服務的時候,經驗很重要,當然這些專業知識的紮實也是最根本的之壹。