入行資料分析要知道什麼是單變數分析和基礎統計

單變數分析處理每個受試者只有一個數據的資料。基本統計描述了資料的基本特徵。

入行資料分析要知道什麼是單變數分析和基礎統計

什麼是單變數分析?

例如某人的考試成績單資料。此外一個科目的成績和平均分的時間序列資料也是單變數的,因為只有一個數據。後者還有另一個指標叫做時間,所以它可能是一個雙變數,如果時間的進展被認為是恆定的(有固定的間隔),可以被認為是一個單變數。

什麼是基本統計?

例如當獲得某個科目的考試成績等資料時,計算該班級的平均分是很常見的。如果知道自己的得分是高於還是低於平均分,則可以檢視自己的排名情況。甚至可以找出最高分是多少,誰的得分最低。如果想更詳細地瞭解自己的位置,也會想出偏差值的概念。為了得到偏差值,需要知道每個人的分數分佈有多少(什麼樣的分佈)。

基本統計的計算

以下是 A 和 B 的大學成績。光看這個資料,並不清楚每個人有什麼樣的結果,有什麼樣的差異。(其中a到m為科目名稱)

入行資料分析要知道什麼是單變數分析和基礎統計

收集資料時,需要檢查資料是如何分佈的。使用頻率分佈圖,看看這兩個學生的成績有什麼樣的分佈。

入行資料分析要知道什麼是單變數分析和基礎統計

透過建立這樣的頻率分佈可以直觀地瞭解分佈的狀態。A 的成績呈現的對稱分佈,接近正態分佈。而 B 的成績有一個偏向低端的偏態分佈。但是僅憑此資訊,無法從數字上掌握詳細的差異。

那麼來看看這兩個表現的基本統計資料。如果使用Excel分析工具,可以輕鬆輸出以下結果。

入行資料分析要知道什麼是單變數分析和基礎統計

從基本統計來看,B 的平均值更差,A 的偏度(表示形狀扭曲)對於左右對稱,而 B為0。77 形狀是變形了。

如果偏斜低於平均值,則偏斜為正,如果偏斜高於平均值,則偏斜為負。另外,還有一個指標叫做峰度,在正態分佈中為0,值越尖銳、值越大。在上面的示例中可以看到 B 更銳利。

統計常用的代表值

均值、眾數、中位數

基本統計資料包括平均值、中位數和眾數。

在進行單變數分析時,需要建立這樣的直方圖並檢查獲取資料的分佈情況。

入行資料分析要知道什麼是單變數分析和基礎統計

中位數:按大小順序排列資料,中間的值排在中間。

均值:將所有個別數據相加,除以個數所得資料。

眾數:資料中出現最頻繁的資料。

3種的平均值

一般來說,平均是指

算術平均

,但實際上平均分三種,需要根據情況正確使用。

算術平均數(算術平均值)

:通常所說的平均值。它是所有資料的總和除以資料的數量。

EXCEL 中的公式是 = AVERAGE()

幾何平均(geometric mean)

:是所有資料的值相乘,得到資料個數的根號的值。用於查詢平均率,例如價格上漲率。

EXCEL中的公式是 = GEOMEAN()

入行資料分析要知道什麼是單變數分析和基礎統計

比如現在 iphone5、iphone6、iphone7 的價格分別為1000、2000、3000。對於果粉來說選擇永遠是最新的。事實上從消費者的價格感來看,這種定價方式未必很好,因為價格和使用的關係不是線性的而是指數級的。

如果 iphone5 價格是1000,iphone7 的價格是3000,那麼 iphone6 應該是多少?用算數平均是 2000,但是用幾何平均來計算得到 1732 ,這樣或許比較合理一些。

入行資料分析要知道什麼是單變數分析和基礎統計

調和平均

:用於計算兩個單位計算的平均速度。

EXCEL 中的公式是 = HARMEAN()

例如步行的速度兩個相同長度,第一階段是 10km/h ,第二階段是 8km/h,那麼用算數平均速度計算得到的結果是 9km/h。

用調課平均來計算的話是第一階段 0。1 小時,第二階段是 0。225 小時,所以結果為:

入行資料分析要知道什麼是單變數分析和基礎統計