常用描述變量集中趨勢的統計指標包括:算術均數,幾何均數,中位數,算術均數算術均數適用於對稱分布特別是正態分布的資料,幾何均數適用於可經對數轉換為對稱分布的資料;中位數適用於各種分步資料常用於偏峰資料。
壹、集中趨勢描述
1.算術平均數 Arithmetic Mean:所有數值的和除以數值的個數。用於描述壹組數據在數量上的平均水平。
計算公式:
優缺點:算術平均數是能夠充分運用已有信息的代表性數值,每個數值大小的改變都會引起其變化。也因此容易受極值的影響,並且會掩蓋數據的差異性。
示例:最近更新了2018年度深圳在崗職工的月平均工資,達到了9309元。這就是壹個算術平均值的實際應用。還是要保持進步,爭當排頭兵而非吊車尾呀。
2.幾何平均數 Geometric Mean:對各數值的連乘積開項數次方根。壹般用於當總成果為各個階段(環節)的連乘積時,求各個階段(環節)的壹般成果。
計算公式:
優缺點:幾何平均數受極端值的影響比均值小。但僅適用於具有等比或近似等比關系的數據。
示例:連續作業的車間求產品的平均次品率。壹個產品的生產由三個環節組成。每個環節都會產生壹定的次品。次品率依次為5%、2%、6%,求這個產品的平均次品率。
因為每個環節依次發生,需要完成上壹個環節的合格品才能進入下壹個環節,所以每個環節的次品率之間是乘積關系。
依照上式結果可知,該產品整個生產環節的平均次品率為3.91%。
3.中位數 Median:將數值從小到大依次排列,最中間的數值為中位數。若數值個數為奇數個時,為中間位置的數值;若數值個數為偶數個時,為中間兩個數的算術平均數。
優缺點:不受極端值影響,通過損失部分信息,來換取指標的穩定性 。但對極值缺乏敏感性,當樣本量小時,中位數不穩定。
示例:畢業生小於獲得了兩個offer,分別是A、B兩個公司。A公司該部門工資情況為甲400元,乙500元,丙600元,丁20000元,B公司該部門工資情況為戊1000元,己1500元,庚2000元,辛8000元。
A、B公司平均月薪為5375元、2675元。此時算術平均數受極值影響已失去代表作用,A、B公司月薪中位數550元、1750元能代表更多的數據。
4.眾數 Mode:數據中出現次數最多的數值。如果有兩個或兩個以上的數值出現次數並列最多,那麽這些數值都是該數據集的眾數。如果所有數值出現的次數相同,這該數據集沒有眾數。
優缺點:可用於數值型數據,也可用於非數值型數據。數據量越多時越具有代表性,且不受極值影響。
示例:壹家銷售鞋的商鋪,參照以往的消費數據,得出女鞋銷售尺碼的眾數為37碼,男鞋銷售尺碼的眾數為42碼,那麽在商鋪備貨的時候,女鞋37碼和男鞋42碼就需要安排更多的備貨。
5.截尾均數 Trimmed Mean?:將數據進行排序後,按照壹定比例去掉兩端的數據,只用中部的數據來求均數。
若截尾均數與原均數相差不大,說明數據不存在極端值,或者兩端極端值的影響正好抵消;若截尾均數與原均數相差較大,則說明數據存在極端值,此時截尾均數可以更好的反應數據的集中趨勢。
優缺點:算術平均數較易受到極端值的影響,而截尾均數是其的壹種改進,在壹定程度上降低極端值給均數帶來的影響。
示例:某次藝術比賽10個評委給出評分如下:47、56、74、42、83、75、69、71、76、69。若去掉壹個最高分83和壹個最低分42,則平均分為: