新聞動態
公司動態
會議與講座
精彩資料
會議報導
SCI&基金&講座資料
MedSci服務與公司動態
會議資訊
常見問題FAQ
專業知識
疾病標準指南
醫學英語
醫學統計與圖表製作技巧
研究動態與學術教育
SCI論文寫作與基金申請
研究動態
Newsletter
當前位置:首 頁 >> 新聞中心: SPSS教程:判斷數據正態分布的多種方法

SPSS教程:判斷數據正態分布的多種方法

添加時間:2017-10-12

當我們應用統計方法對數據進行分析時,會發現許多計量資料的分析方法,例如常用的T檢驗、方差分析、相關分析以及線性回歸等等,都要求數據服從正態分布或者近似正態分布,但這一前提條件往往被使用者所忽略。因此為了保證數據滿足上述統計方法的應用條件,對原始數據進行正態性檢驗是十分必要的,這一節內容我們主要向大家介紹如何對數據資料進行正態性檢驗

一、正態性檢驗:偏度和峰度

1、偏度(Skewness):描述數據分布不對稱的方向及其程度。

當偏度≈0時,可認為分布是對稱的,服從正態分布;

當偏度>0時,分布為右偏,即拖尾在右邊,峰尖在左邊,也稱為正偏態;

當偏度<0時,分布為左偏,即拖尾在左邊,峰尖在右邊,也稱為負偏態;

注意:數據分布的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置,容易引起誤解。

2、峰度(Kurtosis):描述數據分布形態的陡緩程度。

當峰度≈0時,可認為分布的峰態合適,服從正態分布(不胖不瘦);

當峰度>0時,分布的峰態陡峭(高尖);

當峰度<0時,分布的峰態平緩(矮胖);

利用偏度和峰度進行正態性檢驗時,可以同時計算其相應的Z評分(Z-score),即:偏度Z-score=偏度值/標準誤,峰度Z-score=峰度值/標準誤。在α=0.05的檢驗水平下,若Z-score在±1.96之間,則可認為資料服從正態分布。

了解偏度和峰度這兩個統計量的含義很重要,在對數據進行正態轉換時,需要將其作為參考,選擇合適的轉換方法。

3、SPSS操作方法

以分析某人群BMI的分布特征為例。

(1) 方法一

選擇Analyze → Descriptive Statistics → Frequencies

將BMI選入Variable(s)框中 → 點擊Statistics → 在Distribution框中勾選Skewness和Kurtosis

(2) 方法二

選擇Analyze → Descriptive Statistics → Descriptives

將BMI選入Variable(s)框中 → 點擊Options → 在Distribution框中勾選Skewness和Kurtosis

4、結果解讀

在結果輸出的Descriptives部分,對變量BMI進行了基本的統計描述,同時給出了其分布的偏度值0.194(標準誤0.181),Z-score = 0.194/0.181 = 1.072,峰度值0.373(標準誤0.360),Z-score = 0.373/0.360 = 1.036。偏度值和峰度值均≈0,Z-score均在±1.96之間,可認為資料服從正態分布。

二、正態性檢驗:圖形判斷

1、直方圖:表示連續性變量的頻數分布,可以用來考察分布是否服從正態分布

(1) 選擇Graphs → Legacy Diaiogs → Histogram

(2) 將BMI選入Variable中,勾選Display normal curve繪製正態曲線

2、P-P圖和Q-Q圖

(1) P-P圖反映了變量的實際累積概率與理論累積概率的符合程度,Q-Q圖反映了變量的實際分布與理論分布的符合程度,兩者意義相似,都可以用來考察數據資料是否服從某種分布類型。若數據服從正態分布,則數據點應與理論直線(即對角線)基本重合。

(2) SPSS操作:以P-P圖為例

選擇Analyze → Descriptive Statistics → P-P Plots

將BMI選入Variables中,Test Distribution選擇Normal,其他選項默認即可。


三、正態性檢驗:非參數檢驗分析法

1、正態性檢驗屬於非參數檢驗,原假設為“樣本來自的總體與正態分布無顯著性差異,即符合正態分布”,也就是說P>0.05才能說明資料符合正態分布。

通常正態分布的檢驗方法有兩種,一種是Shapiro-Wilk檢驗,適用於小樣本資料(SPSS規定樣本量≤5000),另一種是Kolmogorov–Smirnov檢驗,適用於大樣本資料(SPSS規定樣本量>5000)。

2、SPSS操作

(1) 方法一:Kolmogorov–Smirnov檢驗方法可以通過非參數檢驗的途徑實現

選擇Analyze → Nonparametric Tests → Legacy Dialogs → 1-Sample K-S

將BMI選入Test Variable List中,在Test Distribution框中勾選Normal,點擊OK完成操作。


(2) 方法二:Explore方法

選擇Analyze → Descriptive Statistics → Explore

將BMI選入Dependent List中,點擊Plots,勾選Normality plots with tests,在Descriptive框中勾選Histogram,Boxplots選擇None,點擊OK完成操作。


3、結果解讀

(1) 在結果輸出的Descriptives部分,對變量BMI進行了基本的統計描述,同時給出了其分布的偏度值、峰度值及其標準誤,具體意義參照上麵介紹的內容。

(2) 在結果輸出的Tests of Normality部分,給出了Shapiro-Wilk檢驗及Kolmogorov-Smirnov檢驗的結果,P值分別為0.200和0.616,在α=0.05的檢驗水準下,P>0.05,不拒絕原假設,可認為資料服從正態分布。

(3) 在結果輸出的最後部分,同時給出了直方圖和Q-Q圖,具體意義參照上麵介紹的內容。建議可以直接使用Explore方法,結果中不僅可以輸出偏度值,峰度值,繪製直方圖,Q-Q圖,還可以輸出非參數檢驗的結果,一舉多得。

四、注意事項

事實上,Shapiro-Wilk檢驗及Kolmogorov-Smirnov檢驗從實用性的角度,遠不如圖形工具進行直觀判斷好用。在使用這兩種檢驗方法的時候要注意,當樣本量較少的時候,檢驗結果不夠敏感,即使數據分布有一定的偏離也不一定能檢驗出來;而當樣本量較大的時候,檢驗結果又會太過敏感,隻要數據稍微有一點偏離,P值就會<0.05,檢驗結果傾向於拒絕原假設,認為數據不服從正態分布。所以,如果樣本量足夠多,即使檢驗結果P<0.05,數據來自的總體也可能是服從正態分布的。

因此,在實際的應用中,往往會出現這樣的情況,明明直方圖顯示分布很對稱,但正態性檢驗的結果P值卻<0.05,拒絕原假設認為不服從正態分布。此時建議大家不要太刻意追求正態性檢驗的P值,一定要參考直方圖、P-P圖等圖形工具來幫助判斷。很多統計學方法,如T檢驗、方差分析等,與其說要求數據嚴格服從正態分布,不如說“數據分布不要過於偏態”更為合適。

有專家根據經驗提出,標準差超過均值的1/2時提示數據不服從正態分布,或者四分位間距與標準差的比值在1.35左右時提示服從正態分布,這些可以作為正態性檢驗的一個粗略判斷依據,僅供參考。

五、問題與思考

在對數據資料進行正態性檢驗後,若發現數據分布偏態較為明顯,是否能將偏態分布的資料轉化為正態分布,從而適合T檢驗等統計方法的要求?針對不同分布特征的數據應該如何進行轉換呢?我們將在下次的內容中進行詳細介紹。

研究動態相關的新聞


Blood:研究揭示鐵泵蛋白Fpn1在鐵代謝中作用
Cell Research:靈長類腦中存有活躍神經幹細胞
Cell:發現骨架蛋白INAD作用新機理
吸煙可能增加前列腺癌致死風險
科學家提出預測糖尿病新方法
美國CDC評出十年公共衛生成就 Top 10
科學家成功從尿液提取誘導多能幹細胞
可卡因上癮與大腦結構異常有關
強化他汀療法與糖尿病風險增加有關
web对话
live chat