分類變量只能進壹步分為多種類型,應根據情況選擇合適的模型。下面分幾種情況分別討論。
作為基礎,先說兩個題外話——0/1型因變量,然後回答主要問題。
0/1變量:比如妳結婚了嗎?妳有第二個孩子嗎?到底買不買越野車...解釋的變量是二元選擇問題。此時,Logit或Probit模型是最常用的。雖然它們在形式上有所不同,但在系數解釋和概率預測方面幾乎沒有區別。如果使用Stata進行估計,語法也非常簡單。
具有少量類別的分類變量
例如,解釋變量為“yy=交通工具的選擇”:1步行;電動汽車2輛;3輛車;4地鐵。顯然,雖然各種類別是用數字來區分的,但數字之間並沒有區別,它們只是起到“標記”的作用。
類似的例子還有很多,比如:
Yy=上市公司融資方式:1內部融資;2.債務融資;3股權融資(這是壹個相對標準的例子)。
Yy=上市公司融資方式:1內部融資;2 .銀行貸款;3 .公司債券;4家私募;5公開二次發行(這是壹個不好的例子)。
Yy=高管激勵方式=: 1貨幣薪酬;2份股票期權;3績效獎金。
此時可以使用多元Logit/Probit回歸模型進行估計,對應的Stata命令是mlogit和mprobit。Stata幫助文件和電子手冊提供了詳細的示例和解釋。
從本質上講,多元logit可以看作是多個二元Logit,並且附加了壹些約束條件,例如要求各種選擇的概率之和為1,並且每組二元Logit模型的幹擾項之間具有壹定的相關性。
在大量類別的情況下
當類別很多時,例如超過10個組甚至20個組時,直接分析它們會更加困難。退壹步說,此時不容易分析群體之間的差異,也很難搞清楚經濟含義。
處理這壹問題的安全方法是根據相關的理論和經驗分析將現有的分類進行合並,使分析對象相對集中。
比如妳可以把“a .短期銀行貸款;b .長期銀行貸款;c .商業票據;d .可贖回債券和其他融資方式分類為“1。債務融資”,然後與“2。內部融資。股權融資”。從理論上講,雖然上述子類(A、B、C、D)之間存在差異,但與大類之間的差異(1,2,3)相比,這些差異的重要性將大大降低。從大的類別層面進行分析,便於我們把握問題的本質。
具有序數特征的分類變量
有時,我們無法明確區分“類別變量”和“順序變量”。例如“HY-happiness”-值為1-5,5代表“非常快樂”。
您可以將HY視為壹個類別變量,並使用mlogit模型來分析HY=5的人和HY=4的人之間的差異。這個時候數字4和5只是用來標記兩類人,並沒有4
妳也可以將HY視為序數變量,並使用Ordered)Logit/Probit分析哪些因素會影響幸福感的提高(從1→2或4→5)。這時,4
相對而言,後者用得更多,但也有文章同時從上述兩個角度進行分析,因為不存在孰優孰劣的問題。