兩個總體間的差異如何比較?
研究樣本,通過研究樣本來分析總體。實際上,所研究的總體往往是無限總體,總體的參數是無法用觀察或計算得到的。同理,總體平均數常常無法計算,因而往往用樣本平均數作為總體平均數的估計值,因為樣本平均數的數學期望等於總體的平均數。
詞義解析
離均差 是每個觀察值的偏離平均數的度量指標。
樣本均方 是總體方差的無偏估計值。
標準差 為方差的正平均根值,用以表示資料的變異度。
抽樣分布的標準差 又稱為標準誤,它可以度量抽樣分布的變異。
變異系數
標準差和觀察值的單位相同,表示壹個樣本的變異度,若比較兩個樣本的變異度,則因單位不同或均數不同,不能用標準差進行直接比較。這時可以計算樣本的標準差對均數的百分數,稱為變異系數。
由於變異系數是由標準差和平均數構成的比數,即受標準差的影響,又受平均數的影響,因此,在使用變異系數表示樣本變異程度時,應同時列舉平均數和標準差,否則可能引起誤解。
正態分布
標準化的正態分布方程就是在正態分布的基礎上令 ,u為正態分布的平均數,s為正態分布的方差。
由於不同的總體的平均數和方差不同,所以將其轉換為標準正態分布方程,這樣凡要計算壹個正態分布的概率只需將y轉換為U值,然後查表就可以得出y落入某區間的概率。
假設測驗
可從假設的總體裏推論其隨機抽樣平均數的分布,從而可以算出某壹樣本平均數指定值出現的概率,這樣就可以研究樣本和總體的關系,從而進行假設測驗,這就是假設測驗的基本原理。
T檢驗
F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。在進行t測驗時,需要考慮方差是否相等,可以用F檢驗進行分析。
U測驗和t測驗
u測驗 :利用u分布進行的假設測驗,總體方差已知或者方差未知但大樣本;
t測驗 :利用t分布進行的測驗,總體方差未知,是小樣本。
u測驗就是根據標準化正態分布的原理進行計算的,u測驗是在總體方差為已知,或方差未知單樣本容量相當大,可以用樣本方差直接作為總體方差進行應用。
同樣,t測驗也是根據這個原理進行分析的,只不過因為t測驗的樣本比較小(通常小於30,當樣本大於30時接近正態分布)而總體方差又未知,所以就用樣本的方差先估算出總體的方差,然後進行分析計算概率的。
成對數據,由於同壹配對內兩個供試單位的試驗條件很是相近,而不同配對間的條件差異又可通過同壹配對的差數給予消除,因為可以控制實驗誤差,具有較高的精確度。
方差分析
對壹組處理的重復試驗數據經對總平方和與總自由度的分解估計出處理間均方和處理內均方(誤差均方),並通過F測驗處理間所表示出的差異是否真實(比誤差大)
方差分析是建立在壹定的線性可加模型基礎上的,所謂線性可加模型就是指總體每壹變量可以按其變異的原因分解成若幹個線性組成部分,它是方差分析的理論基礎。
方差分析的基本假定
F測驗
在壹個平均數為u、方差為S的正態總體中,隨機抽取兩個獨立樣本,分別求得其均方為s1和s2,將s1和s2的比值定義為F,F值具有s1的自由度和s2的自由度。
在方差分析的體系中,F測驗可用於檢測某項變異因素的相應或方差是否真實存在,所以在計算F值時,總是將要測驗的那壹項變異因素的均方作分子,而另壹項變異(例如實驗誤差項)的均方為分母。也就是說如果檢測的變異因素存在,那麽他的均方就根據自由度的關系而大於限定內的均方。
多重比較
最小顯著差數法(實質上就是t測驗)、q法、新復極差法LSD
多重比較結果的表示方法
劃線法、標記字母法 先將平均數從大到小排列起來,再將不顯著的劃分為同壹組
參數估計法
矩法、最小二乘法、極大似然法
聯合方差分析
對用於多年多點實驗的分析
相關系數和決定系數
對於坐標點呈直線趨勢的兩個變數,如果並不需要由X來估計Y,而僅需了解X和Y是否確有相關以及相關的性質(正相關或負相關),則首先應算出表示X和Y相關密切程度及其性質的統計數————相關系數(以r表示相關系數)。決定系數定義為由x不同而引起的y的平方和占y總平方和的比率(用R表述決定系數)
回歸系數就是x對y的效應。
偏回歸系數
偏回歸系數是在其他自變數保持壹定時,某壹變數對因變數的效應。
偏相關系數就是其他變量保持壹定是,某壹變量和因變量的關系。
協變量
通俗的講,就是在試驗過程中對因變量的影響除了自變量外的變量,壹些不可控但是能進行測量的變量。在實驗設計中,協變量是獨立變量,實驗者不能操縱,但仍影響實驗結果
協方差是在方差分析的基礎上,綜合回歸分析的方法,研究如何調節協變量對因變量的影響效應,從而更加有效地分析實驗處理效應的壹種統計技術。簡單來講就是對協變量的分析。
回歸分析中如果想求得置信區間,可以在進行回歸分析時:分析——回歸——線性回歸——統計——回歸系數——誤差條形圖的表征
協方差分析
直線回歸和相關的應用要點(很重要)
偏度
度量數據偏離正態分布的程度,它刻劃分布函數對稱性,當偏度為正值時,分布向大於平均數方向偏斜,偏度為負值時則向小於平均數方向偏斜;當偏度的絕對值大於2時,分布的偏斜程度嚴重。
峰度
度量數據服從正態分布時峰的高度,它刻劃不同類型的分布的集中和分散程度,當峰度大於3時,分布比較陡峭,峰態明顯,即總體變數的分布比較集中。
偏度和峰度是判斷正態分布的重要指標
完全隨機試驗就是簡單的單因素方差分析
但是在隨機區組試驗中,可以用雙因素無重復方差分析,因為區組作為局部控制的壹項手段,對於減小誤差是相當有效的(壹般區組間的F測驗可以不必進行,因為試驗目的不是研究區組效應的)。
條區實驗
在多因素實驗中由於實施試驗的需要,每壹因素的各水平都有較大的面積,因而在裂區設計的基礎上將同壹副處理也連成壹片。這樣A,B兩個因素就互為主副處理,兩者的交叉處理為各該水平的處理組合。這就是條區設計。
裂區實驗
裂區就是實驗因素有主副之分,因此裂區實驗的變異的誤差項有兩個,而壹般的隨機區組實驗誤差項只有壹個
/s/blog_ab3eddb50102vz3i.html 使用單因素的定制,然後自己設計模型:區組 主效 區組(主效) 副效 主效*副效. 在文件——新建——語法 中進行修改
條區實驗
在spss中使用單因素的全因子分析
組內觀察值數目相等的單項分組資料的方差分析(spss):簡單的單因素分析
組內觀察值數目不相等的單項分組資料的方差分析(spss):單因素,類型1
組內又分亞組的單項分組資料的方差分析(spss):單因素,然後將模型修改為 {因素 分組(因素) 亞組(因素*分組).}
多因素方差分析中的處理組合間的差異不必管它,
SPSS
許多現實的問題中,僅僅依靠統計描述和簡單的統計推斷方法是不夠的,現實世界中變量間的聯系錯綜復雜,往往要同時考慮多個因素的作用,並為之建立多變量模型。
常用術語
1、因素(Factor)與水平(Level)
因素也被稱為因子,就是指可能對因變量有影響的分類變量,而分類變量的不同取值等級(類別)就被稱為水平。
2、單元(Cell)
單元也被稱為水平組合,或者單元格,是各因素各個水平的組合。
3、元素(Element)
元素指用於測量因變量值的最小單位。根據具體的試驗設計,壹個單元格內可以有多個元素,也可以只有壹個,甚至沒有元素。
4、均衡(Balance)
如果在壹個試驗設計中任意因素個水平在所在單元格中出現的次數相同,且每個單元格內的元素數均相同,則該試驗時均衡的;否則,就被稱為不均衡。不均衡的試驗設計在分析時較為復雜,需要對方差分析模型做特別設置才能得到正確的分析結果。
兩個處理的樣本量不等,是不平衡試驗,不平衡試驗用異方差和等方差計算出的t統計量數值是不相同的,而平衡試驗用異方差和等方差計算出的t統計量數值是相同的,只是自由度不同,這時兩種方法的結果就比較接近,因此實驗設計中通常要求做平衡試驗。
兩個或多個處理下方差相等的情況稱為方差齊性,從嚴格的意義上說,任何兩個處理的方差都不會完全相同,我們說方差齊性也只是認為兩個處理的方差相差不大,其方差的變異程度不足以影響統計分析結果的正確性,這時采用平衡試驗還能夠進壹步降低方差的差異對統計分析結果的影響。在方差齊性的前提下,平衡試驗的統計效率是最高的。如果實驗前能夠確定方差是非齊性的,則應該對方差大的處理分配較大的樣本量。
實際應用中的多數情況方差是齊性的,在實驗的處理數目多於兩個時,要使用方差分析比較多個處理間平均水平的差異,而方差分析的前提條件是方差齊性,所以等方差的的假設是普遍的。
5、協變量(Covariates)
協變量指對因變量可能影響,需要在分析時對其作用加以控制的連續性變量。實際上,可以簡單地把因素和協變量分別理解為分類自變量和連續性自變量。
6、交互作用(Interaction)
如果壹個因素的效用大小在另壹個因素不同水平下明顯不同,則稱為兩因素間存在交互作用。
7、固定因素(Fixed Factor)與隨機因素(Random Factor)
固定因素是指該因素在樣本中所有可能的水平都出現了。
隨機因素指的是,該因素所有可能的取值在樣本中沒有都出現,或者不可能都出現。
方差分析模型的適用條件
1、理論上的適用條件
* 各樣本的獨立性:由於各樣本相互獨立,來自真正的隨機抽樣,才能保證變異能夠按照模型表達式那樣具有可加性(可分解性);
* 正態性:由於各組的隨機誤差項被設定為服從正態分布,因此模型要求各單元格的殘差必須服從正態分布。
* 方差齊:同樣是因為隨機誤差項,由於在模型中無論何種組合,隨機誤差項被假定服從相同的正態分布,因此模型要求各單元格都滿足方差齊(變異程度相同)的要求。
2、實際操作中對適用條件的把握
(1)單因素方差分析
因模型只有壹個因素,設計較為簡單,樣本有充足的信息量對正態性和方差齊性進行考察,這已經成為標準分析步驟
但是許多人誤將正態性理解為因變量應當正態分布,顯然這種想法和實際的要求不是壹回事。不過由於模型有壹定穩健性,只有因變量分布不是明顯偏態,分析結果壹般都是較穩定的。
至於方差齊性,需要特別指出的是:根據Box的研究結果,在單因素方差分析中,如果各組的例數相同(即均衡),或總體呈正態分布,則方差分析模型對方差略微不齊有壹定的耐受性,只要最大與最小方差之比小於3,分析結果是穩定的。
(2)單元格內重復數據的方差分析
以配伍設計方差分析最為典型,此時不需要考慮正態性和方差齊性問題,原因在於正態性和方差齊性的考慮是以單元格為基礎單位的,此時每個格子中只有壹個元素,當時沒法分析了。除配伍設計的方差分析外,交叉設計、正態設計等可以出現無重復數據的情況。但必須指出,這裏只有因條件不足,無法考慮適用條件,而不是說可以完全忽視這兩個問題,如果根據專業知識認為可能在不同單元格內正態性,方差齊性有問題,則應當避免使用這種無重復數據的設計方案。
當然,從模型的角度講,實際操作對數據正態性的考慮還有壹個辦法,就是擬合完畢後作出殘差分析圖,如果殘差呈隨機分布,則可知(單元格內)原始數據滿足正態條件。
(3)有重復數據的多因素方差分析
由於正態性、方差齊性的考察是以單元格的基本單位,此時單元格數目往往很多,平均每個單元格內的樣本粒數實際上比較少。
另壹方面,也可能因為只有極個別單元格方差不齊而導致檢驗不能通過。根據實際經驗,實際上在多因素方差分析中,極端值的影響大於方差齊性等問題的影響,因此實際分析中可以直接考察因變量的分布情況,如果數據分布不是明顯偏態,不存在極端值,而壹般而言方差齊性和正態齊性不會有太大問題,而且也可以基本保證單元格內無極端值。因此在多因素方差分析中,方差齊性往往只限於理論探討。但對於較重要的研究,則建模後的殘差分析時非常重要的。
LSD法:實際上要求將各組均和壹個參照水平加以比較。
S-N-K法:兩兩比較結果則要清楚的多。
1. 首先,它會把各組在表格的縱向上按照均值的大小排序;
2. 其次,在表格的橫向各水平被分為了若幹個亞組(Subset),不同亞組間的P值小於0.05,而同壹亞組各組均數則兩兩無差異,比較的P值均大於0.05.
當自變量與其他自變量或者協變量相關時,沒有明確的方法可以評價自變量對因變量的貢獻。例如,含因子A、B和因變量y的雙因素不平衡因子設計,有三種效應:A和B的主效應,A和B的交互效應。假設妳正使用如下表達式對數據進行建模:
Y ~ A + B + A:B
有三種類型的方法可以分解等式右邊各效應對y所解釋的方差。
類型Ⅰ(序貫型)
效應根據表達式中先出現的效應做調整。A不做調整,B根據A調整,A:B交互項根據A和B調整。
類型Ⅱ(分層型)
效應根據同水平或低水平的效應做調整。A根據B調整,B依據A調整,A:B交互項同時根據A和B調整。
類型Ⅲ(邊界型)
每個效應根據模型其他各效應做相應調整。A根據B和A:B做調整,A:B交互項根據A和B調整。
對平衡實驗,那種模型都可以,但是對於非均衡實驗,使用類型Ⅰ
R默認調用類型I方法,其他軟件(比如SAS和SPSS)默認調用類型Ⅲ方法。
壹般來說,越基礎性的效應越需要放在表達式前面。具體來講,首先是協變量,然後是主效應,接著是雙因素的交互項,再接著是三因素的交互項,以此類推。對於主效應,越基礎性的變量越應放在表達式前面,因此性別要放在處理方式之前。
方差分析泛應用於商業、經濟、醫學、農業等諸多領域的數量分析研究中。例如商業廣告宣傳方面,廣告效果可能會受廣告式、地區規模、播放時段、播放頻率等多個因素的影響,通過方差分析研究眾多因素中,哪些是主要的以及如何產生影響等。而在經濟管理中,方差分析常用於分析變量之間的關系,如人民幣匯率對股票收益率的影響、存貸款利率對債券市場的影響,等等。
協方差是在方差分析的基礎上,綜合回歸分析的方法,研究如何調節協變量對因變量的影響效應,從而更加有效地分析實驗處理效應的壹種統計技術。
8.1單因素方差分析及R實現
(1)正態性檢驗
對數據的正態性,利用Shapiro-Wilk正態檢驗方法(W檢驗),它通常用於樣本容量n≤50時,檢驗樣本是否符合正態分布。
R中,函數shapiro.test()提供了W統計量和相應P值,所以可以直接使用P值作為判斷標準,其調用格式為shapiro.test(x),參數x即所要檢驗的數據集,它是長度在35000之間的向量。
例:
某銀行規定VIP客戶的月均賬戶余額要達到100萬元,並以此作為比較各分行業績的壹項指標。這裏分行即因子,賬戶余額是所要檢驗的指標,先從三個分行中,分別隨機抽取7個VIP客戶的賬戶。為了用單因素方差分析判斷三個分行此項業績指標是否相同,首先對二個分行的賬戶余額分別進行正態檢驗。
P值均大於顯著性水平a=0.05,因此不能拒絕原假設,說明數據在因子A的三個水平下都
是來自正態分布的。
QQPlot圖是用於直觀驗證壹組數據是否來自某個分布,或者驗證某兩組數據是否來自同壹(族)分布。在教學和軟件中常用的是檢驗數據是否來自於正態分布
qq圖是正態分位數圖,縱坐標是變量的取值,關鍵是橫坐標,參考了以為博友的博客。自己用R寫了壹個程序驗證了壹下。基本沒問題。
qqplot全名應該是正態分位數圖,橫坐標的做法:
首先把變量按從小到大的順序排列,計算變量的長度,即總***有多少個取值,再按順序計算變量的所有取值的累積百分比,所謂的累積百分比,也就是可以看成是累積概率,比如有10個值,按照從小到大的順序,第壹個值的排序是1, 那麽他的所占的百分比就是10%, 緊接著後壹個值所占的百分比也會是10%,但是累積概率值為20%, 依次往後計算,因為最後壹個值的累積百分比是100%,即等於1,這個值如果計算它的正態分布概率的分位數的話,是無限大的,因此需要對這個值進行修正壹下,就是因為這壹個值無限大,所以對全體計算出來的累積百分比減去壹個適當小的數,修正後的累積百分比與原百分比相差不多,但是回避了最後壹個值是1而無法計算的問題。
有了累積百分比之後,相對應的就是累積的概率值。將累積概率值修正後,即得到累積概率,比如以10個值為例,第壹個值的累積概率為0.05,查正態分布表,0.05的累積概率,對應的正態分布的Z值為-1.64,這樣壹次計算,所得的Z值,就是qqplot的橫坐標數據。下面以10個數據和30個數據為例說明。
(2)方差齊性檢驗
方差分析的另壹個假設:方差齊性,需要檢驗不同水平蔔的數據方差是否相等。R中最常用的Bartlett檢驗,bartlett.test()調用格式為
bartlett.test(x,g…)
其中,參數X是數據向量或列表(list) ; g是因子向量,如果X是列表則忽略g.當使用數據集時,也通過formula調用函數:
bartlett.test(formala, data, subset,na.action…)
formula是形如lhs壹rhs的方差分析公式;data指明數據集:subset是可選項,可以用來指定觀測值的壹個子集用於分析:na.action表示遇到缺失值時應當采取的行為。
續上例:
由於P值遠遠大於顯著性水平a=0.05,因此不能拒絕原假設,我們認為不同水平下的數據是等方差的。
8.1.2單因素方差分析
R中的函數aov()用於方差分析的計算,其調用格式為:
aov(formula, data = NULL, projections =FALSE, qr = TRUE,contrasts = NULL, ...)
其中的參數formula表示方差分析的公式,在單因素方差分析中即為x~A ; data表示做方差分析的數據框:projections為邏輯值,表示是否返回預測結果:qr同樣是邏輯值,表示是否返回QR分解結果,默認為TRUE; contrasts是公式中的壹些因子的對比列表。通過函數summary()可列出方差分析表的詳細結果。
上面的例子已經對數據的正態性和方差齊性做了檢驗,接F來就可以進行方差分析:
Levene檢驗
Levene檢驗,它既可以用於正態分布的數據,也可用於非正態分布的數據或分布不明的數據,具有比較穩健的特點,檢驗效果也比較理想。
R的程序包car中提供了Levene檢驗的函數levene.test()
由於p值大於a=0.05,不能拒絕原假設,我們認為不同水平下的數據是等方差的。
8.1.3多重t檢驗
單因素方差分析是從總體的角度上說明各效應的均值之間存在顯著差異,但具體哪些水平下的均值存在較人差異無從得知,所以我們要對每壹對樣本均值進行壹壹比較,即要進行均值的多重比較。
經過修正後的p值比原來會增大很多,這在壹定程度上克服了多重t檢驗增加犯第壹類錯誤的
概率的缺點。從檢驗結果來看,樣本兩兩之問t檢驗的p值都很小,說明幾個樣本之間差異明顯。
8.1.4Kruskal-Wallis秩和檢驗
R內置函數kruskal.test()可以完成Kruskal-Wallis秩和檢驗,使用如下:
kruskal.test(x, ...)
kruskal.test(x, g, ...)
kruskal.test(formula, data, subset,na.action, ...)
例:
某制造商雇用了來自三所本地大學的雇員作為管理人員。最近,公司的人事部門已經收集信息並考核了年度工作成績。從三所大學來的雇員中隨機地抽取了三個獨立樣本,樣本量分別為7、6, 7,數據如表所示。制造商想知道來自這三所不同的大學的雇員在管理崗位上的表現是否有所不同,我們通過Kruskal-Wallis秩和檢驗來得到結論。
檢驗的結果為P=0.0112<0.05,因此拒絕原假設,說明來自這三個不同的大學的雇員在管理崗位上的表現有比較顯著的差異。
8.2雙因素方差分析及R實現
8.2.1無交互作用的分析
例:
某商品在不同地區、不同包裝的銷售數據
首先為了建立數據集,引入生成因子水平的函數g1(),其調用格式為:
gl(n, k, length=n k,labels=1:n,ordered=FALSE)
n是因子的水平個數;k表示每壹水平上的重復次數;length=n k表示總觀測數;可通過參數labels對因子的不同水平添加標簽;ordered為邏輯值,指示是否排序。
分析前先對因素A和B作方差齊性檢驗,使用函數bartlett.test()
因素A和B的P值都遠大於0.05的顯著性水平,不能拒絕原假設,說明因素A, B的各水平是滿足方差齊性的。這時再進行雙因素方差分析,輸入指令
檢驗的結論:因素B的P值=0.0219<0.05,拒絕原假設,說明銷售地區對飲料的銷售量有顯著影響;而因素A的P值=0.1032>0.05,不能拒絕原假設,因此沒有充分的理由可以說明包裝方式對銷售有明顯影響。
8.2.2有交互作用的分析
R仍然用函數aov()作雙因素方差分析,只需將formula改為x A+B+A:B或x A*B的形式即可。
例:
不同路段和不同時段的行車時間數據
首先構造數據集,對因素A和B作方差齊性檢驗,利用函數bartlett.test()
檢驗結果的P值均遠大於顯著性水平0.05,說明兩個因素下的各水平都滿足方差齊性的要求,可以進壹步做方差分析。畫圖來觀察壹下數據的特點,首先是箱線圖。
從圖形上單獨觀察時段和路段對行車時間的影響,可以發現因素的不同水平還是有明顯差別的。為了考察因素間的交互作用是否存在,利用函數interaction.plot()繪制交互效應圖:
interaction.plot(x.factor, trace.factor,response, fun = mean,type = c("l","p", "b", "o", "c"), legend = TRUE,trace.label =deparse(substitute(trace.factor)),fixed = FALSE,xlab =deparse(substitute(x.factor)),ylab = ylabel,ylim = range(cells, na.rm =TRUE),lty = nc:1, col = 1, pch =c(1:9, 0, letters),xpd = NULL, leg.bg =par("bg"), leg.bty = "n",
xtick = FALSE, xaxt = par("xaxt"),axes = TRUE,...)
x.factor表示橫軸的因子
trace.factor表示分類繪圖的因子
response是數值向量,要輸入響應變量
fun表示匯總數據的方式,默認為計算每個因子水平下的均值
type指定圖形類型
legend是邏輯值,指示是否生成圖例
trace.label給出圖例中的標簽。
曲線均沒有相交,所以可以初步判斷兩個因素之間應該沒有交互作用。用方差分析進行確認:
根據檢驗結果的P值作判斷:引素A時段和B路段對行車時間有顯著影響;而交互作用A:B的P值=0.42>0.05 ,因此不能拒絕原假設H0,說明兩個因素間沒有明顯的交互效應。
8.3協方差分析及R實現
為了提高試驗的精確性和準確性,我們對除研究因素以外的壹切條件都需要采取有效措施嚴加控制,使它們在因素的不同水平間盡量保持壹致,這叫做試驗控制。但當我們進行試驗設計時,即使做出很大努力控制,也經常會碰到試驗個體的初始條件不同的情況,如果不考慮這些因素有可能導致結果失真。如果考慮這些不可控的因素,這種方差分析就叫做協方差分析,其是將回歸分析和方差分析結合在壹起的方法。它的基本原理如下:將壹些對響應變量Y有影響的變量X(未知或難以控制的因素)看作協變量,建立響應變量Y隨X變化的線性回歸分析,從Y的總的平方和中扣除X對Y的回歸平方和,對殘差平方和作進壹步分解後再進行方差分析。
例:
施用3種肥料的蘋果產量
協方差分析的P值非常小,說明結果非常顯著,應該拒絕原假設,認為各因素在不同水平下的試驗結果有顯著差別,即三種肥料對蘋果產量有很大的影響。