新聞動態
公司動態
會議與講座
精彩資料
會議報導
SCI&基金&講座資料
MedSci服務與公司動態
會議資訊
常見問題FAQ
專業知識
疾病標準指南
醫學英語
醫學統計與圖表製作技巧
研究動態與學術教育
SCI論文寫作與基金申請
研究動態
Newsletter
當前位置:首 頁 >> 新聞中心: 大數據分類利器---支持向量機(SVM)入門介紹

大數據分類利器---支持向量機(SVM)入門介紹

添加時間:2015-10-25

什麼是分類分析?

讓我們思考一個例子。假設某總體50%是男性,50% 是女性。你想要通過一個樣本(集)獲取一些規則,以確定總體其餘部分成員的性別。使用支持向量機,相當於建立一個判斷某人是男是女的機器。這是個典型的分類問題。我們試圖通過一些規則,把總體分為兩個可能的部分。出於簡便考慮,這裏假設兩個用來區分的要素為:身高、頭發長度。樣本集的散點圖如下:
支持向量機
圖中的藍色圓點代表女性,綠色方塊代表男性。從圖中可以推測:

1.總體中的男性平均身高更高

2.總體中的女性頭發更長

如果某人身高180cm,頭發4cm長,我們更可能將其判定為男性。這就是做分類分析的方式。

支持向量是什麼?支持向量機(SVM)是什麼?

支持向量就是單條記錄的坐標。比如(45,150) 是對應一名女性的支持向量。支持向量機是能夠區分男性和女性的最佳邊界。在本例中,兩個類別相隔清晰,所以更容易找到支持向量機。

如何確定當前案例的支持向量機?

當前的案例有很多可能的邊界。下麵是三種可能情況:
支持向量機
我們要如何確定哪條是最佳的邊界?

要解釋支持向量機目標函數(objective function)最簡單的方法,是尋找與邊界最近的支持向量(屬於任何類別均可)的距離(如,橙色邊界離藍色圓圈近。此邊界離最近的那個藍色圓圈有2個單位距離)。當知道全部邊界對應的距離之後,選擇(與最近支持向量)距離最大的那條邊界。上麵的三條邊界中,黑色邊界離最近支持向量的距離最大(15個單位)。

下圖中,自變量是二維的,x1,x2,散點圖根據因變量y紅藍著色,如圖所示。

將紅藍兩色分開,有好多種方法,圖中三色的直線都可以,對吧?

但是,我們可以找到一條直線,作為一種最優的邊界黃色虛線)。

為什麼說這條黃色直線是最優的呢?因為這條線有最寬的緩衝帶(下圖),官方通用詞叫做margin。我們想辦法得到一個最寬的margin(下圖中的灰色條帶),那麼我們對中間黃色的分類界限就有更多的信心


最大化margin的寬度,必然會接觸到兩側的紅藍點,這幾個點,就有名字了,支持點。因為每個點都對應著一組坐標,高維空間中,坐標可能由多個變量組成,所以我們也把這幾個點叫做向量。因此這幾個在margin邊界上的點,就被稱為支持向量。而相應的一整套算法,即被稱為支持向量機。這便是機器向量機名字的由來。

支持向量機,就是通過尋找最大化margin及其對應的支持向量,並進一步求解最恰當的分界線(黃色虛線),而最終將因變量成功進行分類。

有時候,我們的數據並不是像上圖一樣完全分開的,往往是藍中有紅,紅中有藍。這時候,如何去尋找這個margin呢?於是乎,就誕生了soft margin一詞。改進的算法,對這類更加雜亂的數據有了很好的容忍性。

單單憑借上麵的分類法則,支持向量機並不能得到它如今的地位!

它的地位到底有多高呢?引用機器學習大牛Andrew Ng的一段話:

“SVMs are among the best (and many believe are indeed the best) ‘off-the-shelf’ supervised learning algorithms.”

幫助支持向量機獲得武林至尊地位的,還有一個終極武器,叫做Kernel。翻譯成“核”,實際上是對距離的重新定義。就像我們知道有歐氏距離、馬氏距離等等,在這裏,我們用“核”來重新定義距離與空間


還是繼續我們的看圖說話:

下圖是單維度(單變量)的一組點。我們現在想把白點和藍點(用一條直線)區分開來。怎麼做呢?

我們把這所有的點做一個平方,想起中學裏學過的拋物線嗎?我們用拋物線的規則將這一組數據轉換一下:

看到沒?看到沒~?白色點的位置變了哦~


如下圖,我們終於可以用一條直線將兩類點區分開啦!這一變換,就是一個Kernel trick。當然,這個是最最簡單的啦!

單維的看過了,我們看一組二維空間的。如下平麵中,也是有藍點與紅點(不太清晰,找一下)。如何把他們篩選出來呢?我們之前的logistic回歸,很難實現哦!


我們來繼續看一下Kernel的方法,也是將原始數據做個變換,如下圖所示,是不是可以分開了?:

換個切麵看一下,是不是非常清晰?這就是支持向量機合並終極武器Kernel之後的偉大魅力!

當然,這一強大的武器,在高維空間也是同樣適用的!

或者類似這樣:


後續文章,小編將繼續帶著大家探究一下支持向量機的更酷炫應用軟件實現。Keep tuned!

本文綜合了醫學統計分析精粹等信息整理而成。

醫學統計與圖表製作技巧相關的新聞


臨床研究學院課程推薦2:臨床醫學統計課程
臨床研究學院課程推薦4:SCI發表支持課程
臨床研究學院課程推薦3:SCI論文寫作指導課程
核查知情同意書的十個點
跟我一起從零學習stata統計軟件,從此統計不求人
臨床醫生為什麼要用數據庫開展臨床研究?
論文數據要慎用條圖
SparkR:數據科學家的新利器
大數據分類利器---支持向量機(SVM)入門介紹
web对话
live chat