統計備忘單:資料收集和探索

每日分享最新,最流行的軟體開發知識與最新行業趨勢,希望大家能夠一鍵三連,多多支援,跪求關注,點贊,留言。

此統計備忘單包含您在下一次資料科學或分析面試中必須瞭解的概念,這些概念以易於記憶的方式呈現。

統計備忘單:資料收集和探索

統計學是資料分析和資料科學的基礎。

雖然許多有抱負的人專注於學習名字晦澀難懂的模糊演算法,但他們忽略了基礎知識,最終搞砸了面試。

如果沒有對統計學的深入瞭解,就很難

在資料科學領域做出一份嚴肅的職業

一個人不必是博士學位,但一個人必須能夠理解統計方法背後的基本數學和直覺才能取得成功。

在本系列中,我們將介紹您必須瞭解的統計學基礎知識,以便透過下一次資料科學麵試。

什麼是統計

統計學是與資料的收集、分析、解釋或解釋以及呈現有關的科學。

統計學有三大支柱。

資料收集和探索

可能性

統計推斷

在這個由三部分組成的系列中,我們將研究與嶄露頭角的資料科學家相關的主要統計領域。

在這一部分中,我們將看看資料收集和探索。

我們有一組很棒的

統計部落格文章

,您可以在這裡找到。

推薦的一些文章是。

資料科學麵試的 A/B 測試

統計檢驗的基本型別

機率面試問題

此外,請檢視我們全面的“

統計備忘單

”,它超越了統計的基本原理(如均值/中值/眾數)。

樣本與總體

為了分析資料,收集資料很重要。

在統計學中,我們通常著手研究人口。

人口可以被認為是正在研究的物件、人或自然現象的集合。

例如,剛從大學畢業的畢業生的收入、甜甜圈的重量或在智慧手機上花費的時間。

由於收集有關整個人口的資料並不總是可能或過於昂貴(或兩者兼而有之),因此我們依賴於人口的一個子集。

統計備忘單:資料收集和探索

如果選擇得當,這個子集(或樣本)可以幫助我們相對確定地瞭解整個人群並做出決定。

從這個樣本資料(例如,人們的收入)中,我們計算出一個統計資料(例如,典型的收入)。

該統計量表示樣本的屬性。

該統計資料是對人口引數(所有美國人的典型收入)的估計。

抽樣方法

對於代表總體的樣本,它應該具有與總體其餘部分相同的特徵。

例如,如果要調查美國人對保守價值觀的態度,那麼來自藍色州立大學的文科學生可能不是最好的代表。

統計學家使用多種方法來確保樣本是隨機的並真正代表整個人群。

在這裡,我們看一下用於取樣的一些最常用的方法。

每種方法都有其優點和缺點,我們也會研究這些。

簡單隨機樣本

最簡單的抽樣方法是簡單的隨機抽樣。

一個隨機選擇整個人口的一個子集。

每個人被選中的可能性與其他每個人相同。

換句話說,每個人被選中的機率都是一樣的

統計備忘單:資料收集和探索

其中 n 是人口規模。

統計備忘單:資料收集和探索

一個簡單的隨機樣本有兩個特性,使其成為我們比較所有其他抽樣方法的標準

偏差:

一個簡單的隨機樣本是無偏的。

換句話說,每個單位都有與其他單位相同的機會被選中。

沒有對特定單位或單位的偏好

獨立性:

一個單位的選擇不影響另一個單位的選擇機會。

然而,在現實世界中,很難(如果不是不可能)找到一個完全無偏且獨立的樣本。

最常見的情況之一是

2016 年選舉投票所使用的樣本中

受教育程度較低的選民的代表性不足。

雖然可以生成完全隨機的受訪者列表,但最終結果可能會出現偏差,因為人們可能不會做出迴應,從而

使樣本出現偏差並偏離人口特徵

如果我們對總體有所瞭解,就有更有效和更高效的方法來對總體進行抽樣。

分層樣本

在分層樣本中,我們將總體劃分為同質組(或層),然後從每個層中取一個成比例的數字。

例如,我們可以將一個學院劃分為多個系,然後按照每個系的優勢比例從每個系中隨機抽取樣本。

統計備忘單:資料收集和探索

分層抽樣的示例

統計備忘單:資料收集和探索

這裡的樣本代表每個區域的 1%。

一個更復雜的例子是當我們引入多個特徵時。

例如,讓我們也按性別劃分每個區域。

取樣過程看起來像這樣。

統計備忘單:資料收集和探索

分層抽樣的主要優點是它捕獲了樣本中總體的關鍵特徵。

與加權平均一樣,分層抽樣會產生與總體人口成比例的特徵。

但是,如果無法形成地層,則該方法會導致錯誤的結果。

這也是耗時且相對昂貴的,因為分析師必須識別樣本的每個成員並將它們準確地分類到一個層次中。

此外,可能存在成員可能分為多個層次的情況。

在這種情況下,樣本可能會歪曲總體。

聚類樣本

有時在叢集中選擇調查受訪者具有成本效益。

例如,與其遍歷城鎮中的每一棟建築物並隨機抽樣受訪者,不如隨機選擇一些建築物(叢集)並調查居住在其中的所有居民。

統計備忘單:資料收集和探索

由於較少的後勤需求,這可以提高速度並節省更多成本。

聚類樣本方法的有效性取決於所選聚類的成員與總體相比的代表性。

為了緩解這種情況,整群抽樣的樣本量通常大於簡單隨機抽樣的樣本量,因為叢集中成員的特徵通常趨於相似,可能無法捕捉到所有總體特徵。

然而,由於減少旅行和時間而節省的成本可能仍然意味著即使有額外的樣本量,整群抽樣也被證明是更便宜的選擇。

透過使用多階段聚類可以進一步最佳化聚類抽樣。

顧名思義,在多階段叢集中,一旦選擇了叢集,它們就會進一步叢集在更小的單元中,從而進一步降低成本。

例如,如果我們想了解全國學生的學習能力。

我們開始基於狀態進行聚類。

此外,在這些州,我們以學校為基礎進行聚類,並隨機選擇該部門的學校樣本並調查這些學校的學生。

這通常用於就業、健康和家庭統計的全國調查。

系統樣本

另一種廣泛使用的大人口抽樣方法是系統抽樣。

在這個過程中,使用一個隨機的起始位置,選擇每個第 k 個元素包含在樣本中。

例如,我們可能會選擇對每三個進入建築物的人進行抽樣。

統計備忘單:資料收集和探索

這是一種快速方便的方法,如果仔細選擇間隔,它會給出類似於簡單隨機樣本的結果。

這種方法使用非常廣泛,因為它易於實現和解釋。

系統抽樣的用例之一是在選舉期間進行出口民意調查。

系統的樣本可以更容易地區分可能都投票給同一個人或政黨的選民群體。

便利樣本

另一種通常不推薦但因環境而使用的方法是方便抽樣。

該方法也稱為抓取取樣或機會取樣,涉及抓取任何可用的樣本。

例如,由於缺乏時間或資源,分析師可能會選擇僅從其鄰近的住宅和辦公室進行抽樣,而不是嘗試從整個城市中尋找受訪者。

統計備忘單:資料收集和探索

如您所料,此方法可能不可靠,因此不推薦使用。

但是,有時它可能是收集資料的唯一方法。

例如,與其嘗試聯絡所有大麻使用者,不如選擇去最近的大學宿舍並調查聚會的參加者。

這種方法的優點包括方便、速度和成本效益。

但是,收集的樣本可能不是真正隨機的或代表總體。

但是,它確實提供了一些資訊,而不僅僅是分析師的預感。

這種方法廣泛用於試點測試或

MVP

以測試和推出新產品。

描述性統計

現在我們已經瞭解瞭如何收集資料,讓我們進入下一步——分析收集的資料。

以圖形和數字的形式顯示和描述收集到的資料稱為描述性統計。

讓我們用一些資料點來分析一下。

我們使用來自一個專案的 200 名學生的假設資料集,該專案提供來自 A、B 和 C 三個公司的薪水。您可以在

此處找到該資料集。

統計備忘單:資料收集和探索

如果我們的資料點數量有限,我們可以簡單地繪製這樣的條形圖。

統計備忘單:資料收集和探索

但是,如果我們嘗試對我們的完整資料集執行此操作,我們最終會得到類似這樣的結果

統計備忘單:資料收集和探索

如您所見,如果我們要逐個檢視每個學生,則該過程可能會變得非常乏味且難以承受。

更簡單的方法是彙總資料。

這就是描述性統計發揮作用的地方。

讓我們看幾個方法。

莖葉圖

最古老的地塊之一是莖葉地塊。

這個想法是將值分成莖和葉。

最後一個有效數字是葉子,剩下的數字是莖。

例如,在數字 239 的情況下,9 是葉子,23 是莖。

對於數字 53,3 是葉子,5 是莖。

為了繪製情節,我們按垂直順序寫出莖,然後按升序寫出每個葉子。

對於我們的薪水資料集,薪水 A 的莖葉圖將如下所示。

統計備忘單:資料收集和探索

上圖顯示在 10 - 19 範圍內有一個觀測值,即 12。在 40 - 49 範圍內,我們有四個觀測值 42、45、45 和 46。累積頻率也顯示在最左邊的列中。

我們也可以類似地繪製 B 公司和 C 公司工資的莖圖。

統計備忘單:資料收集和探索

統計備忘單:資料收集和探索

對於更大的資料集和各種值,它變得笨拙,正如您在公司 B 的薪水的情況下看到的那樣。為了緩解這些問題,我們有一個直方圖。

直方圖

直方圖擴充套件了莖葉圖的概念,不同之處在於我們可以決定如何對這些數字進行分組,而不是將數字分成十個。

與莖葉圖一樣,我們首先確定我們希望數字所在的箱(或桶)。然後我們計算每個箱中的頻率,然後在條形圖中繪製值。

因此,如果我們決定在 10 秒內對數字進行分箱,我們將得到與莖葉圖相同的圖。

統計備忘單:資料收集和探索

我們還可以在 20 年代建立垃圾箱。

這就是圖表的樣子。

統計備忘單:資料收集和探索

如您所見,每個箱子中的數字都更高。

這是很自然的,因為隨著 bin 寬度的擴大,我們現在將有更多的觀察結果。

與莖葉圖一樣,直方圖是檢查資料分佈的好方法。

讓我們看看其他公司工資的其他直方圖是怎樣的。

統計備忘單:資料收集和探索

統計備忘單:資料收集和探索

雖然直觀地檢查資料是有幫助的,但我們需要一些測量來為我們提供有關資料特徵的資訊。

最重要的測量集是集中趨勢(描述資料的典型值)和資料集中值的分佈。

讓我們看一下用於描述資料集的常用數值統計資料。

集中趨勢測度

集中趨勢的度量描述了資料中典型值的樣子。

以我們的薪水為例,可以將其視為這三個公司的典型薪水。

有三種常用的集中趨勢度量——均值、中位數和眾數。

讓我們詳細看看這些。

意思是

平均值(或平均值)是最廣泛使用的集中趨勢度量。

資料集的平均值是透過將資料集中所有觀測值的總和除以觀測值的數量來計算的。

對於具有 n 個值的資料集,通常用 x 表示的平均值由下式給出

統計備忘單:資料收集和探索

統計備忘單:資料收集和探索

統計備忘單:資料收集和探索

平均值通常表示為

是(誰)給的

簡單來說,

讓我們計算一下這三個公司的工資平均值。

如果您使用電子表格軟體,您可以使用 AVERAGE 函式來計算平均值。

工資 A(k) 101。525

工資 B(k) 94。760

工資 C(k) 87。590

讓我們看看均值在直方圖上的位置

雖然 A 公司和 C 公司的平均值看起來不錯,但乍一看,B 公司的平均值似乎有點誤導。

如果進行快速的視覺計算(或使用莖葉圖),超過一半的學生(100 人)獲得了 70k 或更低的薪水。

雖然計算的平均值約為 95k。

這是手段的問題之一。

對於平衡的資料集,均值代表中間值,對於不對稱分佈,均值似乎具有誤導性,因為一些極值可能會使均值偏離。

如果你觀察,有七名學生的薪水超過 25 萬。

為了緩解這個問題,我們不能總是隻依賴平均值。

這很好地將我們引向了下一個衡量標準——中位數。

中位數

中值很簡單,就是觀察排序時資料集的中間值。

要計算中位數,我們只需按升序或降序排列值並選擇中間值。

例如,對於觀察 18、35、7、20 和 27,我們首先對它們進行排列。

7、18、20、27、35

現在我們選擇中間值,在本例中為 20。如果我們有偶數個值,那麼我們選擇兩個中間值的平均值。

例如,如果我們在上面新增另一個觀察值 42,我們將得到以下有序值。

7、18、20、27、35、42

在這種情況下,中位數將是兩個中間值 20 和 27 的平均值。

所以,

注意:中位數將資料集分成兩半,每半包含相同數量的觀測值。

讓我們找到三個資料集的中位數並將它們繪製在直方圖上。

工資 A(k) 101。0

工資 B(k) 78。0

工資 C(k) 90。5

正如我們所預料的那樣,公司 A 和 C 的中位數非常接近它們的均值,但 B 公司的中位數與其中位數相差幾乎一個完整的箱子。

中位數的優點之一是它不容易受到極值的影響。

因此,它在不平衡的資料集中(均值兩側的觀察值分佈大致相等)是首選。

模式

另一個廣泛使用的度量是模式。

該模式代表資料集中最頻繁的觀察。

讓我們用一個簡單的例子來計算眾數。

假設一組五個學生的年齡分別為 23、21、18、21 和 20,那麼這個資料的眾數是 21,因為它出現的次數最多。

一個數據集也可以有多種模式。

例如,如果年齡是 18、23、21、23 和 18,那麼資料集有兩種模式 18 和 23,因為這兩個值都出現了兩次。

這樣的資料稱為多模態資料。

讓我們計算模式並將它們繪製在直方圖上。

工資 A(k) 92

工資 B(k) 39, 105

工資 C(k) 95

請注意,對於 B 公司提供的薪水,有兩個值出現次數最多(39 和 105)。

傳播措施

在統計學中,散佈(或分散或可變性或分散)是資料被拉伸或壓縮的程度。

將其視為衡量資料趨向於存在多遠的中心。

例如,如果每個人都獲得相同的薪水,則價差將為 0。我們可以使用直方圖評估價差。

對於散佈較薄的資料,直方圖會很窄,例如,公司 A 和 C 提供的薪水。而對於具有更大範圍值的資料集,直方圖會像公司 B 一樣寬。讓我們看一下用於評估價差的數學方法。

範圍

資料集的範圍是最高值和最低值之間的差異。

三個資料集的範圍如下:

工資 A(k) 218

工資 B(k) 338

工資 C(k) 99

這與我們在視覺上看到的一致。

四分位距 (IQR)

雖然該範圍很好地說明了資料集的分佈,但與平均值一樣,該範圍很容易受到頻譜任一側的極值的影響。

因此,我們使用稱為四分位間距(或簡稱 IQR)的範圍更細微的版本。

四分位數是中位數概念的延伸。

正如中位數將資料集一分為二,每個包含相同數量的觀察值,四分位數將資料集分為四個,每個包含相同數量的觀察值。

這些四分之一邊界分別由 Q1、Q2、Q3 和 Q4 或第一、第二、第三和第四四分位數表示。

第一個四分位數表示底部 25% 的值(按幅度)的最大值,第二個四分位數包含接下來的 25%,依此類推。

讓我們在 A 公司提供的工資直方圖上繪製四個四分位數。

正如您可能已經猜到的那樣,中位數是第二個四分位數 (Q2)。

數值為:

第一季度:81。75

第二季度:101

第三季度:119。25

第四季度:230

IQR 測量第一個和第三個四分位數之間的差值或中間 50% 值的範圍,不包括前 25% 和後 25% 的觀察值。

IQR = Q3 - Q1

讓我們計算三個薪水的 IQR。

工資 A(k): 37。5

工資 B(k): 100。5

工資 C(k): 27。5

這一趨勢與我們之前看到的趨勢相似,但這也表明 A 公司的中間 50% 值相對緊密。

IQR 值用於構建箱線圖(也稱為箱線圖)。

讓我們解構箱線圖。

方框代表資料的中間 50%。

末端是 Q1 和 Q3。

方框內的線是中位數。

晶須的邊界分別為 Q1 和 Q3 左右的 1。5 IQR。

Q1 - 1。5 IQR 和 Q3 + 1。5 IQR 的值範圍通常被稱為柵欄。

這是平衡分佈的可接受值。

此範圍之外的值是異常值(極值)

方差和標準差

到目前為止,我們僅使用極值和四分位數來衡量價差。

最廣泛使用的傳播度量是標準偏差(以及方差)。

標準差衡量每個值與資料集平均值的差異,並計算一個表示資料分佈的數字。

讓我們用一個簡單的資料集來展示所涉及的計算。

假設我在五天(華氏度)的過程中觀察到以下溫度:82、93、87、91 和 92。這些值的平均值將是

我們需要找出每個值與平均值相差多少。

我們可以透過從每個值中減去平均值來找到這一點。

我們得到以下資訊。

(82 - 89)、(93 - 89)、(87 - 89)、(91 - 89) 和 (92 - 89)

或 -7、4、-2、2、3

這些值稱為均值的殘差或偏差,或簡稱為偏差。

由於我們想要一個單一的值,讓我們嘗試計算這些值的平均值。

如果你計算一下,你會發現這些值的總和為零。

這是均值的基本性質

為了克服這個問題,我們需要從偏差中刪除符號。

最常見的方法是對值進行平方。

由於實數的平方始終為正,我們現在可以保證得到一個正值。

我們現在取這個平均值並得到

這個值稱為資料的方差。

但是,如果你仔細觀察,單位現在也是平方的,所以 16。4 不是華氏度,而是華氏度的平方!

為了把它恢復到原來的單位,我們取平方根。

數字 4。05 被認為是資料集的標準偏差。

然而,有一個轉折點。

如果資料集是整個人口,這個數字將是標準偏差。

由於情況並非如此,我們需要調整公式以獲得樣本方差和標準差。

為此,我們在除數中使用 n - 1 而不是 n。

這稱為貝塞爾校正。

這主要是因為樣本方差總是小於總體方差。

您可以在這裡看到精彩的解釋

因此樣本方差通常用 s2 =

和樣本標準差 s =

作為練習,嘗試計算這三個公司提供的薪水的標準偏差和變化。

您可以使用一個簡單的電子表格程式來執行此操作。

也嘗試在不使用內建公式的情況下計算值。

結論

現在我們已經掌握了查詢樣本中心和分佈的基本工具,我們將在下一部分中擴充套件它,我們將在其中研究統計的另一個關鍵方面——機率和隨機事件。

在本文中,我們研究了收集資料樣本進行分析的各種方法。

我們使用了一個假設的工資資料集,並學習瞭如何繪製直方圖和箱線圖等圖表。

我們還了解了集中趨勢的度量和傳播的度量。

這將為我們接下來的兩部分做好準備。

在準備統計資料時,您可以使用 StrataScratch 平臺,我們在該平臺上擁有超過 20,000 名有志於進入 Google、Amazon、Microsoft、Netflix 等公司最搶手的資料科學和資料分析師角色的社群。立即加入 StrataScratch,將您的夢想變為現實。