新聞動態
公司動態
會議與講座
精彩資料
會議報導
SCI&基金&講座資料
MedSci服務與公司動態
會議資訊
常見問題FAQ
專業知識
疾病標準指南
醫學英語
醫學統計與圖表製作技巧
研究動態與學術教育
SCI論文寫作與基金申請
研究動態
Newsletter
當前位置:首 頁 >> 新聞中心: 數據歸一化

數據歸一化

添加時間:2017-10-12

數據標準化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標準化處理,以解決數據指標之間的可比性。原始數據經過數據標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。

數據歸一化?

數據標準化(歸一化)處理是在數據挖掘中的一項常見的預處理任務,很多情況下當你在數據預處理時都會浮現出一個問題,是不是要進行數據標準化處理?

一般來說,數據歸一化後有一個很明顯的優點,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。

歸一化前

歸一化後

以下是常用的歸一化方法:

一、min-max標準化(Min-Max Normalization),也稱0-1標準化(0-1 normalization)

也叫離差標準化,是對原始數據的線性變換,使結果落到[0,1]區間,轉換函數如下:也稱為離差標準化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:

clip_image002

其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

或者這樣表達:線性函數轉換,表達式如下:
y=(x-MinValue)/(MaxValue-MinValue)
說明:x、y分別為轉換前、後的值,MaxValue、MinValue分別為樣本的最大值和最小值。

二、Z-score標準化方法(zero-mean normalization)

這種方法給予原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。經過處理的數據符合標準正態分布,即均值為0,標準差為1,轉化函數為:

clip_image004

其中clip_image006為所有樣本數據的均值,clip_image008為所有樣本數據的標準差。

兩種數據歸一化方法對比:

1、在分類、聚類算法中,需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候,第二種方法(Z-score standardization)表現更好。
2、在不涉及距離度量、協方差計算、數據不符合正太分布的時候,可以使用第一種方法或其他歸一化方法。
三、對數函數轉換,表達式如下:
y=log10(x)
說明:以10為底的對數函數轉換。
四、反餘切函數轉換,表達式如下:
y=atan(x)*2/PI

總結

在數據歸一化後,模型在尋找最優解的過程明顯會變得平緩,能夠更容易收斂到最優解。

在算法過程中若涉及距離度量(聚類分析)或者協方差分析(PCA、LDA等)的,同時數據分布近似高斯分布時,應當使用Z-score標準化,而在需要縮放區間大小的數據集中可以使用其他合適的歸一化算法對數據集進行優化。

matlab代碼示例如下:

1: d = rand(1,100000);
2:  
3: %gaussian normlization
4: t = (d-mean(d))/(3*std(d));
5:  
6: % len0 = length(find(t>3*std(t))) + length(find(t<-3*std(t)));
7: % len = length(d);
8: % ratio = len0/len; % close to 0
9:  
10: t(t>1) = 1;
11: t(t<-1) = -1;

注:是否要進行標準化,要根據具體實驗定。如果特征非常稀疏,並且有大量的0(現實應用中很多特征都具有這個特點),Z-score 標準化的過程幾乎就是一個除0的過程,結果不可預料。

研究動態相關的新聞


Blood:研究揭示鐵泵蛋白Fpn1在鐵代謝中作用
Cell Research:靈長類腦中存有活躍神經幹細胞
Cell:發現骨架蛋白INAD作用新機理
吸煙可能增加前列腺癌致死風險
科學家提出預測糖尿病新方法
美國CDC評出十年公共衛生成就 Top 10
科學家成功從尿液提取誘導多能幹細胞
可卡因上癮與大腦結構異常有關
強化他汀療法與糖尿病風險增加有關
web对话
live chat