資料建模與分佈擬合，Excel來搞定

使用樣本資料，有幾個方面的缺陷。首先，儘管樣本看起來類似於它的母體，但不同樣本有著不同的特點，因此，由於抽樣誤差的存在，樣本可能不足以代表真正的母體。其次，在決策模型中使用樣本資料，有可能限制了我們預測那些可能發生的不確定事件的能力，因為我們並沒有把樣本資料範圍之外的可能的值包括進來。一種更好的方法是透過將理論上的分佈與資料進行“擬合”，並且從統計學上檢驗擬合優度，來辨別樣本資料中基本的機率分佈。

為了選擇與樣本資料擬合的適當的理論分佈，我們可能首先要研究資料的直方圖，以尋找特定分佈的截然不同的形狀。例如，正態分佈是對稱的，中間有一個峰。指數資料呈高度的正偏度，不存在負值。對數資料同樣也呈高度的正偏度，但密度下降至0。伽瑪、韋布爾或貝塔分佈等各種不同的型別，可以用於那些看起來和其他普通型別的分佈無法擬合的分佈形態。當然，這種方法並非自始至終是準確或有效的，有時候可能還難以採用，特別是如果樣本容量較小的話。不過，它可以將你搜索的焦點集中在一些可能的分佈上。

概要統計也可以提供關於分佈性質的線索。平均值、中位數、標準差和變異係數等，通常也提供了觀察分佈性質的資訊。例如，正態分佈的資料往往變異係數非常小（然而，如果平均值非常小，則可能不是這種情況）。對於正態分佈的資料，我們還可以預期中位數和平均值大致相同。然而，對於指數分佈的資料，中位數將小於平均值。此外，我們還可以預期，平均值大約與標準差相等，或者同樣地，變異係數接近於1。我們還可以觀察偏斜指數。正態分佈的資料不會偏斜，而對數分佈和指數分佈的資料呈正偏度。以下兩個例子證實了部分的這些觀點。

分析航空公司旅客的資料

某航空公司經營著兩座中等城市之間的航班線路，每天都有航班發出，執飛的是70座的支線飛機。航班的機票很少預訂一空，但通常讓在最後一分鐘購買機票的旅客出高價坐飛機。下圖顯示了25個航班的樣本的旅客數量。直方圖顯示了一個相對對稱的分佈圖。儘管該圖表現了一定的正偏度，但其平均值、中位數和眾數全都相似。但是我們更需要認識到，這是一個相對較小的樣本，與它的母體資料相比，可能存在較大的變異性。因此，根據這些特點，本著構建一個預測性或規定性分析模型的目的來假定它是一個正態分佈，並不合理。

分析機場服務時間

下圖顯示了一些資料，以及對某機場的檢票櫃檯上服務時間的812個樣本的統計分析，我們無法清楚地看出它是什麼型別的分佈。似乎不是指數分佈，但可能是對數甚至是其他我們也許不熟悉的分佈。從描迷性統計的角度，我們可以發現，平均值並不接近標準差，這意味著資料可能不是指數分佈。

對直方圖和概要統計資料的研究，也許讓我們稍稍瞭解一些合適的分佈。不過，更好的辦法是採用分析方法，將資料與最佳型別的機率分佈擬合。

擬合優度

將資料與機率分佈進行擬合，其原理是一種稱為擬合優度的統計程式。擬合優度試圖得出關於分佈特性的結論。決定樣本資料有多麼優良地與測量的分佈相擬合，使用三種類型的統計方法：卡方檢驗、柯爾莫諾夫-斯米爾諾夫檢驗和安德森-達林檢驗的統計方法。這三種統計方法測量樣本資料的直方圖是否與規定的理論上的機率分佈相吻合。

卡方檢驗法將理論上的分佈細分為幾個機率相等的區域，並且將每個區域中的資料點與那一分佈期望的數字相比較。

柯爾莫諾夫斯米爾諾夫檢驗法將資料的累積分佈和理論上的分佈進行比較，並且依據它們之間最大的垂直距離來得出結論。

安德森-達林檢驗法與柯爾莫諾夫-斯米爾諾夫檢驗法類似，但它更加註重分佈的尾部之間的區別。當你需要在分佈的最頂端的尾部實現更優良的擬合時，安德森達林檢驗法是有益的。

如果你使用卡方檢驗法，至少應當擁有50個數據點；對小型樣本，一般情況下更適合採用柯爾莫諾夫斯米爾諾夫檢驗法。

實戰應用：在廣告中為優質資料構建模型的價值

為了表明在決策模型中確定正確的分佈的重要性，接下來討論廣告業中的一個例子。一直以來，各公司在廣告的創新方面（也就是說，想方設法制作更能吸引觀眾眼球的廣告）所耗費的金額，與他們用在媒體上的總預算相比，只佔很小的份額。有位專家指出，在廣告創新方面的支出，大約只佔到在媒體上釋出廣告所耗費資金的5%。

不論在廣告創新方面的支出是多少，這些支出通常藉助一個單一的廣告機構來引導。然而，有一種理論認為，應當在廣告的創新方面更捨得花錢，而且，那些錢應當分散到大量相互競爭的廣告機構中去。在對這一理論進行研究時，專家發現，廣告效果的分佈呈正態分佈。然而在現實中，研究人員收集的關於消費者對產品廣告的響應的資料表明，這種分佈實際上極為偏斜，因此，它並不是正態分佈。

在任何模型或應用中使用了錯誤的假設，都可能產生錯誤的結果。在這種情形中，偏度實際上為廣告投放商提供了優勢，使他們能更有效地從眾多的廣告機構中獲得創意。

一個數學模型（稱為格羅斯模型）將廣告創新的支出和媒體釋出支出的相對分佈，與廣告的總體效果聯絡起來。該模型通常用於判斷應當購買多少份草圖廣告最為適宜。模型包含的因子有廣告研發成本、在媒體上釋出的總支出預算、各種廣告的效果的分佈（假定為正態分佈），以及“從一系列獨立產生的替代方案中判斷最有效果廣告”這種做法的不可靠性。格羅斯模型的結論是：如果從獨立源頭中獲得了多份廣告草圖，就可以實現較大的收益，也可以選擇最佳的廣告。

由於對廣告效果的觀察獲得的資料明顯是有偏度的，另一些研究人員在沒有要求廣告效果具備假定的正態分佈的前提下，研究了有關廣告回想的標準行業資料並且，以此來檢驗廣告的效果。該研究發現，從一系列的草圖廣告中挑選最好的廣告進行釋出，比釋出任何一則單一的廣告，效果更好。進一步的分析揭示，究竟可以委託廣告機構做出多少份草圖廣告，其差別是極為明顯的，這要取決於單一的廣告的效果資料的分佈形狀。

研究人員提出了格羅斯模型的替代模型。從分析中他們發現，草圖廣告的數量如果增加，那麼，最佳廣告的效果也會提高。如果使用了正確的分佈，而不是使用從格羅斯最初的研究中報告的結果，草圖廣告的最佳數目，以及從製作多個獨立草圖廣告中獲得的回報，都將更高一些。

資料建模與分佈擬合，Excel來搞定

相關文章