企業數據挖掘實際運用的模型

這是好幾年前寫的壹篇文章，今天突然翻出來看到，我覺得對於很多在做數據挖掘的朋友有壹定參考。

聽了幾位從公司幾位同事和外面專家介紹關於數據挖掘、數據模型的壹些東西。總的來說，很有收獲，當然收獲並不在具體的技術細節上。更多是在看法，理念上。

我以前也搞過很多模型，從最基本的聚類、決策樹、logisitic、回歸分析、生存分析、神經網絡，還有市場調研中壹些聯合分析、感知分析、因子分析/主成分分析，當然還有更高級壹點的結構方程。在期貨公司呆的壹年中，還搞過計量模型：ARMA簇、ARCH簇、VaR等，當時對自己產生的模型，感覺很不自信。因為當時的模型識別率指標（例如：R方，並沒有達到傳說中在學校做論文或者平時玩模型的90%以上），感覺這個模型就是不好的，並不完美。

去年抱著學習的心態，去壹家數據量極其豐富的互聯網公司，想去看看大公司玩數據到什麽程度，雖然以前和許多牛人們交流過，但當時壹直覺得應該不是這麽簡單。

到新公司後同幾位做modeling的同事和聽了外部專家的演講，某種程度上我釋然的。感覺自己以前在做模型的時候，更多是在做學術研究壹樣，也許和我是壹個追求完美的人有關。

例如：模型成立的假設條件，與變量選擇。

模型的假設條件，對數據的分布要求；

模型的變量選擇，以及變量的各種預處理；

針對最終的目的理論上可以使用的模型，都去嘗試。比如:會員流失問題：決策樹、邏輯回歸、生存分析，我都會去嘗試使用，根據其最終的LIFT值最大的，然後選擇。

但實際上，從幾位同事與朋友的介紹來看，邏輯回歸是許多公司是都在用的模型，

為什麽不用更“高級”，更先進的模型呢？原因有二個：

第壹個：模型的健壯性。這些模型都是被之前實踐證明是最好的，或者性能相對來說最穩定的。衡量的指標不外乎：穩定性、可解釋性（這點在商業很重要）、簡單性。

第二個：商業運用，已經是流程式的過程，不會輕易去改變，就是妳生產線上壹樣。模型的輕微改變可以要牽動許多方面，是壹個大工程。

從與他們的交流來說，我好像忘記了壹個東西：這些都是為商業服務的，商業過程不要太復雜，最好的商業模式往往是最簡單，不是嗎？

我的觀點：也許和自己的工作經歷有關，但是我覺得對於壹個數據分析師或者是數據建模師來說，雖然妳用的很簡單。但是妳掌握的東西應該很多，很復雜，也正是因為有這些基礎，妳才能選擇最好的模型，所以在玩數據挖掘或者數學建模為商業服務的時候，經驗很重要，當然這些專業知識的紮實也是最根本的之壹。