當前位置:外匯行情大全網 - 期貨行情 - Spss分析方法-缺失值分析

Spss分析方法-缺失值分析

缺少值會導致嚴重的問題。如果有價值缺失的情況和沒有價值缺失的情況有本質上的不同,結果就會產生誤導。此外,缺失的數據也可能會降低計算出的統計數據的準確性,因為計算中的信息比最初計劃的要少。

另壹個問題是,許多統計過程背後的假設是基於完整的案例,缺失的值可能會使所需的理論變得復雜。

下面我們主要從以下四

Spss分析方法-缺失值分析

Spss分析方法-缺失值分析

缺少值會導致嚴重的問題。如果有價值缺失的情況和沒有價值缺失的情況有本質上的不同,結果就會產生誤導。此外,缺失的數據也可能會降低計算出的統計數據的準確性,因為計算中的信息比最初計劃的要少。

另壹個問題是,許多統計過程背後的假設是基於完整的案例,缺失的值可能會使所需的理論變得復雜。

下面我們主要從以下四

Spss分析方法-缺失值分析

Spss分析方法-缺失值分析

缺少值會導致嚴重的問題。如果有價值缺失的情況和沒有價值缺失的情況有本質上的不同,結果就會產生誤導。此外,缺失的數據也可能會降低計算出的統計數據的準確性,因為計算中的信息比最初計劃的要少。

另壹個問題是,許多統計過程背後的假設是基於完整的案例,缺失的值可能會使所需的理論變得復雜。

下面我們主要從以下四個方面來說明:

【如果!supportLineBreakNewLine]

[endif]

實際應用

理論思維

建立壹個模型

【如果!supportLineBreakNewLine]

[endif]

分析結果

【如果!supportLineBreakNewLine]

[endif]

壹.實際應用

【如果!supportLineBreakNewLine]

[endif]

眾所周知,在收入、交通事故等問題的研究中,會因為被調查者拒絕回答或者因為調查研究中的損失而出現壹些沒有答案的問題。

比如在壹次人口調查中,15%的人沒有回答收入情況,高收入人群的回答率低於中等收入人群,或者在嚴重交通事故報告中,很多情況下沒有記錄是否使用安全帶、酒精濃度等關鍵問題,這些缺失的案例值就是缺失值。缺失值有三種:(1)完全隨機缺失(MCAR),也就是說缺失與變量的值無關。例如,假設我們正在研究年齡和收入之間的關系。如果缺失數據與年齡或收入值無關,則缺失值法是MCAR。要評估MCAR是否為有效假設,我們可以通過比較受訪者和非受訪者的分布來評估觀察數據。您也可以使用單變量t檢驗或利特爾的MCAR多變量檢驗進行更正式的評估。如果MCAR假設是真的,可以使用列表式刪除(完全病例分析)而不用擔心估計偏差,盡管可能會損失壹些有效性。如果MCAR不成立,列表刪除和均值替換等近似方法可能不是壹個好的選擇。(2)隨機缺失(MAR),其中被調查變量僅依賴於數據集中的記錄變量。繼續上面的例子,考慮年齡都是觀察到的,收入有時候是缺失的。如果收入的缺失值僅取決於年齡,則缺失值為MAR. (3)非隨機刪除。這是研究人員最不願意看到的。數據的缺失不僅與其他變量的值有關,也與自身有關。如果缺失的收入值取決於收入值,那麽它既不是MCAR,也不是馬爾

【如果!supportLineBreakNewLine]

[endif]

二、理論思想

SPSS主要分析MCAR和馬爾的缺失值

MCAR和馬爾的區別在於,由於MCAR實際上很難滿足,我們應該在調查之前考慮哪些重要變量可能存在非無效的未回答問題,並嘗試將協變量納入調查,以便使用這些變量來估計缺失值。

【如果!supportLineBreakNewLine]

[endif]

根據缺失值的不同情況,SPSS操作給出了以下三種處理方法:

(1)刪除缺少的值。這種方法適用於缺失值很少的情況。它不需要特殊的步驟,通常在相應分析對話框的選項子對話框中設置。

(2)替換缺失值,使用“轉換”菜單中的“替換缺失值”命令,將所有記錄視為壹個序列,然後使用壹些指示符來填充缺失值。

(3)缺失值分析流程,這是SPSS提供的專門針對缺失值分析的模塊。

缺失值分析過程主要有以下三個功能:(1)描述缺失值模式。通過缺失值分析的診斷報告,用戶可以清楚的知道缺失值在哪裏,出現的比例是多少,還可以推斷缺失值是否是隨機缺失。(2)用列表法、配對法、回歸法或EM(期望最大化)法估計有缺失值數據的均值、標準差、協方差和相關性,配對法還可以顯示完全病例的計數。(3)用回歸方法或EM方法用估計值填補(插值)缺失值,以提高統計結果的可信度。缺失數據可以是分類數據,也可以是數量數據(尺度或連續),然而SPSS只能對數量變量的統計數據進行估計,對缺失數據進行插值。對於每個變量,未編碼為系統缺失值的缺失值必須定義為用戶缺失值。謝爾判別法通過投影法將多維問題簡化為壹維問題。它通過建立線性判別函數,計算每個典型變量維中每個觀測值的坐標,得到樣本與每類中心的距離,作為分類依據。

【如果!supportLineBreakNewLine]

[endif]

【如果!supportLineBreakNewLine]

[endif]

第三,建立模型

缺失值分析案例:

【如果!supportLineBreakNewLine]

[endif]

標題:下表中的壹些人口統計數據值已被缺失值替換。假設數據文件涉及電信公司為減少其客戶群中的客戶流失而采取的措施。每個案例對應壹個單獨的客戶,並且記錄各種人口統計和服務使用信息。下面將詳細講解如何用這個數據文件獲取數據文件的缺失值,從而了解SPSS的缺失值分析過程。

壹.數據輸入

2.操作步驟1:進入SPSS,打開相關數據文件,命令“分析|缺失值分析”2。選擇四個變量:[婚姻]狀況、受教育程度、退休、性別進入“分類變量”列表框;選擇六個變量:服務月數[任期]、年齡[年齡]、在現住址居住年數[住址]、家庭收入(千)[收入]、在現崗位工作年數[就業]和家庭成員人數[居住地]進入量化變量列表框。

3.單擊缺失值分析對話框中的模式按鈕,打開缺失值分析:模式對話框。在顯示選項組中選中案例表(按缺失值模式分組)復選框,從缺失模式列表框中選擇收入、ed、退休、性別四個變量,輸入以下對象列表的附加信息。

其他人使用默認設置。設置完成後,單擊繼續按鈕返回缺失值分析對話框。

4.點擊“描述”按鈕,打開“缺失值分析:描述”對話框。選擇單變量統計和指標變量統計的復選框,以及帶有壹組指標變量和分類變量與指標變量交叉表的T檢驗的復選框。其他的采用默認設置。

5.選中EM,其余設置將由系統默認值設置。點擊“確定”按鈕,等待輸出結果。

【如果!supportLineBreakNewLine]

[endif]

四、結果分析

1,單變量統計表下表給出了所有分析變量不缺失數據的頻率、平均值和標準差,給出了缺失值和極值的個數和百分比的統計信息。通過這些信息,我們可以初步了解數據的壹般特征。以就業壹欄為例,就業變量的有效數據為904個,其平均值為11,標準差為10.113。缺失數據96個,占總數據的9.6%。

2.用EM方法估計表下兩個表中缺失值估計後總體數據的均值和標準差的變化,其中“所有值”是原始數據的統計特征,EM是使用EM方法後總體數據的統計特征。

獨立方差t檢驗表獨立方差t檢驗結果,用戶可以找出影響其他數量變量的變量的缺失值模式,即通過單方差t統計的結果,檢查缺失值是否完全隨機缺失。可見,年齡大的人往往不報收入水平。收入值缺失時,平均年齡為49.73,收入值完整時,平均年齡為40.01。從收入欄的T統計量可以看出,收入的損失會明顯影響其他數量變量,這說明收入的損失並不是完全隨機的。

4.分類變量與數量變量對照表以婚姻為例,給出了分類變量與其他數量變量的對照表。該表顯示了不同婚姻狀況下非缺失變量的數量和百分比,以及缺失值的數量和百分比。該圖確定了系統中缺失值的值以及不同婚姻情況下變量的分布。

5.表格模式輸出結果下表是表格模式(缺失值樣式表)的輸出結果,給出了缺失值分布的詳細信息,X為該模式下的缺失變量。從圖中可以看出,在所有顯示的950個案例中,9個變量的值完整的有475個,收入值缺失的有109個,同時地址和收入值缺失的有16個。其他數據的解釋類似。

6.EM估計統計表下面三個表給出了EM算法的相關統計量,包括EM均值、協方差和相關性。從EM平均的輸出結果來看,年齡變量的平均值為41.91;從EM協方差的輸出結果來看,年齡與任期之間的協方差值為135.326;從EM相關的輸出結果來看,年齡與任期的相關系數為0.496。此外,卡方檢驗的顯著性值明顯小於三個表底部利特爾MCAR檢驗的0.05。因此,我們拒絕了缺失值是完全隨機缺失(MCAR)的假設,這也驗證了從3中得到的結論。獨立方差T檢驗表。

【如果!supportLineBreakNewLine]

[endif]

參考案例數據:

【如果!supportLineBreakNewLine]

[endif]

【如果!support lists]1[Endif]SPSS統計分析從入門到精通(第四版)?、陳、、劉榮?清華大學出版社

(更多知識,去節目gz講解)

原文來自/s/cs mioa _ vu 8 hjopvw 16 onfg。

  • 上一篇:怎麽找回賬號密碼?
  • 下一篇:從上海寄順豐到天津要幾天?
  • copyright 2024外匯行情大全網