SPSS主成分分析 | 指標權重值計算真的不難!(上)
1
指標權重計算確定的困惑
相信很多寫過或者正在寫指標處理類論文的朋友都曾對如何計算指標權重充滿困惑,到底是用熵值法,還是主成分分析法?或者其他各種看起來奧妙無窮卻難以上手操作的神奇方法?好不容易確定要選用主成分分析法時又開始發愁要如何實現呢?
聽說過要可以用SPPS,可是又如何使用SPSS操作呢?用SPSS進行主成分分析之後又要如何得到最終的權重呢?接下來筆者將以一個實際的案例,帶領大家一步步從SPSS入手,進行主成分分析,並利用主成分分析的結果最終得到各指標的權重值。
2
利用SPSS實現主成分分析
1。 資料標準化
(1)為什麼要對資料進行標準化處理
在對資料進行主成分分析前,首先要對資料進行標準化,之所以要對資料進行標準化,是因為各種類別的資料間的度量不同,比如計算經濟的指標,我們通常會選取地區GDP生產總值和第三產業產值在GDP中的比重,GDP產值以億為單位,通常以千計或萬計,而第三產業產值在GDP中的比重的取值範圍在0~1之間,如何能夠相提並論呢?能夠因為前者的資料遠遠大於後者,而得出前者的指標更為重要的結論嗎?顯然是不行的,所以要進行主成分分析,首先要對資料進行標準化。
(2)資料標準化的方法
為什麼要關心資料處理的方法呢?在實際操作中,筆者曾經遇到一個問題。筆者利用SPSS自帶的資料標準化方法對資料進行了標準化處理,但在權重的計算過程中不斷出現負值,後來筆者幾次重新調整指標類別,終於得出了均為正值的權重。但筆者最終的目的是要進行耦合協排程,這時候出現了大量的負值,而耦合度及耦合協排程的取值範圍應該在0~1之間,因此筆者開始從頭探索出錯的原因。終於,筆者找到了原因,那就是資料標準化的方法選取的不正確,因此筆者重新選擇了極差法對資料重新進行標準化,並最終順利得到了後續的結果。
本文中筆者將先直接利用SPSS對資料進行標準化,進行主成分分析,並計算權重。隨後再利用極差法對資料進行標準化並進行主成分分析,計算權重。
在這裡先列出極差法資料標準化的方法:
首先要區分指標的正負向,即指標數值越大對主體產生的結果是越好還是越壞。
如上圖,城市綠地面積越大對城市環境越好,而工業廢氣排放量越大,對城市環境越壞,因此城市綠地面積為正向指標,而工業廢氣排放量為負向指標。
2。 SPSS資料標準化
(1)資料選取
我們選擇廣東省2016年21個市級行政區域的五項指標資料,如下圖所示:
(2)SPSS中的資料標準化
首先將資料直接貼上到SPSS資料檢視中:
發現表頭那裡是自動生成的標號,在“變數檢視”中進行修改:
這時候在資料檢視可以看到表頭已經修改:
這時候開始進行資料標準化處理,也很簡單,點選【分析】——【描述統計】——【描述】
將選中資料放入右側“變數”,將左下角“將標準化得分另存為變數(Z)”,這一步一定不能缺少,否則無法在變數檢視中展現標準化的資料
直接點選確定,不用管輸入的內容,直接看回“資料檢視”,發現新增加了五列數,這些就是用SPSS標準化處理後得到的資料。
(3)主成分分析
首先什麼是主成分分析?如何進行主成分分析?由於資料之間可能會具有相關性,即可能表達的是同樣的含義,因此需要的對這些相關性的資料進行降維處理,用較少的變數去解釋原來資料中的大部分變數,將我們手中許多相關性很高的變數轉化成彼此相互獨立或不相關的變數。通常是選出比原始變數個數少,能解釋大部分資料中變數的幾個新變數,並用以解釋資料的綜合性指標。簡單來說就是,把給定的一組相關變數透過線性變換轉成另一組不相關的變數,這些新的變數按照方差依次遞減的順序排列。利用SPSS極大的簡化了以上過程:
點選【分析】——【降維】——【因子分析】
將剛才標準化得到的資料項新增到“變數中”:
接下來,點選:【描述】——選中“原始分析結果”,“係數”,“KMO和Bartlett球形度檢驗”(用來檢測是否適合使用主成分分析)
點選:【抽取】——【主成分分析】,其他選項預設
點選:【旋轉】——選擇“最大方差法”,“旋轉解”(也可以選擇無,在某些情況下資料會出現異常結果,這時會需要進行矩陣旋轉)
點選:【得分】,選擇“顯示因子得分系數矩陣”(對於權重計算來說這必不可少)
點選:【選項】,其他選項可預設
當一切設定完畢之後,點選“確定”,就可以得到主成分分析結果了。
我們主要關注【解釋的總方差】和【成分矩陣】,這也是後面計算權重所不可缺少的。通常解釋的總方差需要超過80%,說明提取的兩個總方差對總體方差的貢獻率高。從筆者分析的結果來說,好像並不適合進行主成分分析。這其實是由於資料標準化選擇不可造成的,有的情況下權重計算還可以得出負值,這就是為什麼要選擇資料標準化的方法,而不能夠只依靠SPSS中的資料標準化。相信這也困惑了很多的朋友,懷疑自己選取指標體系的合理性,在後面筆者使用極差法對資料進行標準化處理後,解釋的總方差接近95%。
成分矩陣在後面全之後結果的計算中,是不可或缺的。
由於篇幅的原因,接下來利用極差法對資料進行標準化以及權重的計算將放到明日首條進行。後面在得出指標權重後,筆者還將分享如何進行多個指標系統之間耦合度及耦合協排程的方法,相信這也曾經難倒了不少朋友,筆者希望能為大家解決一些障礙,降低各位的時間成本。請大家蹲好明日首條內容哦~
薦:
【中國風動漫】除了《哪吒》,這些良心國產動畫也應該被更多人知道!
宣告