本文是高等教育出版社出版的《高等計量經濟學與統計應用筆記》,作者陳強。
我只對個人能用到的知識做了筆記,對課本上難以理解的部分做了進壹步的闡述。為了更容易理解,我還修改了教材的部分內容(包括證明和正文)。
目錄
如果解釋變量是離散的(例如,虛擬變量),這不會影響回歸。但有時被解釋的變量是離散的,而不是連續的,這讓人很頭疼。
這種模型被稱為離散選擇模型或定性反應模型。另外,有時被解釋的變量只能取非負整數,比如企業在壹定時期內獲得的專利數量。這類數據稱為計數數據,其解釋變量也是離散的。
考慮到被解釋變量的離散特性,OLS通常不適合回歸。
假設個人只有兩個選擇,比如和。是否考研取決於畢業生畢業後的預期收入和個人興趣,假設將這些解釋變量融入向量。因此,最簡單的模型是線性概率模型(LPM):
壹致的估計要求(無內生)。然而,有幾個問題:
雖然LPM有上述各種缺點,但它的優點是計算方便,經濟意義分析容易。因此,為了使預測值總是介於之間,我們擴展了LPM:在給定的情況下,考慮兩點分布的概率為:
因此,函數被稱為鏈接函數,因為它將解釋變量與被解釋變量鏈接起來。因為的值不是0就是1,所以必須服從兩點分布。
連接函數的選擇具有壹定的靈活性,可以通過選擇合適的連接函數來保證,將它理解為“發生概率”,因為:
特別是,如果它是標準正態分布累積函數(cdf ),則:
那麽這個模型就叫Probit模型。如果是物流配送的cdf,即:
那麽這個模型就叫做Logit模型。
因為邏輯分布函數有解析表達式,而正態分布沒有,所以計算Logit模型通常比Probit模型更方便。顯然,這是壹個非線性模型,可以用極大似然法(MLE)估計。以Logit模型為例,第壹次觀測數據的概率密度為:
可以不分段寫:
就對數而言,有:
假設樣本中的個體相互獨立,整個樣本的LLF(對數似然函數)為:
這個非線性最大化問題可以用數值方法來解決。
應該指出的是,在這個非線性模型中,估計量是沒有邊際效應的。以Probit為例,可以計算:
這裏使用微分的鏈式法則,並假設它是壹個連續變量。因為Probit和Logit使用的分布函數不同,所以不能直接比較它們的參數,而需要分別計算它們的邊際效應,然後進行比較。但是,對於非線性模型,邊際效應本身並不是常數,它隨著解釋變量的變化而變化。常用的邊際效應概念有:
以上三種邊際效應的計算結果可能不同。傳統上,計算樣本均值處的邊際效應相對簡單;然而,在非線性模型中,樣本均值處的個體行為通常不能代表個體的平均行為(個體的平均行為不同於個體的平均行為)。對於政策分析,平均邊際效應更有意義,是Stata的默認方法。
既然不是邊際效應,那有什麽經濟意義呢?對於Logit模型,讓,那麽,因為,那麽:
其中,稱為優勢比或相對風險。如果概率比是2,說明概率是2倍。對於第二個方程的右導數,我們可以找到這樣的意義:如果加入壹個微小的量,概率比的百分比就會增加。所以可以認為是半彈性,即增加壹個單位引起概率比的百分比變化。
還有壹個生物統計領域特別喜歡用的意思,變成了,所以新的概率比與原概率比的比值可以寫成:
所以,它代表了引起的概率比的變化倍數。
其實如果很小,兩種方法是等價的(泰勒展開)。但是如果需要換壹個單位(比如性別,結婚與否)就要用。另外,Probit模型不能對系數進行類似的解釋,這是Probit模型的缺點。
如何衡量壹個非線性模型的擬合優度?在沒有平方和分解公式的情況下,無法計算。然而,Stata仍然報告了壹個準R2(偽),它是由麥克法登(1974)提出的,並被定義為:
其中是原始模型的最大LLF和以常數項為唯壹解釋變量的最大LLF。因為是離散兩點分布,似然函數LF的最大可能值是1,所以LLF的最大可能值是0,記為。所以,肯定有,所以。
另壹種判斷擬合優度的方法是計算正確預測的百分比。其實我覺得機器學習領域壹系列常用的擬合優度,比如MSE和MAPE都可以用。
本節主要復習高級計量學12和高級計量學13的內容。
壹般來說,要對Probit和Logit模型進行統計推斷,需要以下假設:
先解釋兩種測試:所有系數的聯合測試和單個系數的獨立測試。
(1)所有系數的聯合顯著性
使用Stata時,會報告壹個LR檢驗統計量來檢驗除常數以外的所有其他系數的顯著性(即所有系數的聯合顯著性)。在高級計量學13中,我們推導了MLE系數的LR統計推斷表達式:
上述統計推斷表達式只依賴於兩個條件:樣本i.i.d .和似然函數正確。前者是應用大數定律和中心極限定理,後者是利用信息矩陣方程。
對於Probit和Logit模型,如果分布函數設置不正確,就是擬極大似然估計(QMLE),所以要註意:
(2)單壹系數的顯著性
使用Stata時,Std。呃。還報告了每個系數的。如果要推斷單個系數的顯著性,需要使用高級計量學12第6.5.2節中的推導:
A.在假設抽樣樣本為i.i.d .的情況下,我們可以從大數定律和中心極限定理推導出:
B.假設分布函數設置正確(因此,可以使用使用高級測量11的證明3),可以進壹步推導出:
如前所述,即使分布函數設置錯誤,如果成立,穩健標準差等於i.i.d .情況下MLE的普通標準差所以只要成立就可以使用上面的等式。
C.如果是這樣,Probit和Logit模型就無法得到系數的壹致估計。這個時候統計推斷是沒有意義的。
如果要從上面的公式中檢驗單個系數,顯然需要未知的實參數。所以我們可以按照高級測量12的6.6方法來處理,這裏就不贅述了。