思邁特軟體Smartbi:Get這些資料清洗小技巧,快速提高資料質量!

資料清洗怎麼做(一):準備工作

拿到資料表之後,先做這些準備工作,方便之後的資料清洗。

1。 給每一個sheet頁命名,方便尋找

2。 給每一個工作表加一列行號,方便後面改為原順序

3。 檢驗每一列的格式,做到每一列格式統一

4。 做資料來源備份,防止處理錯誤需要參考原資料

5。 刪除不必要的空行、空列

思邁特軟體Smartbi:Get這些資料清洗小技巧,快速提高資料質量!

資料清洗怎麼做(二):統一數值口徑

這是個無聊而必要的步驟。例如我們統計銷售任務指標,有時用合同金額有時用回款金額,口徑經常不統一。統計起來就很麻煩。所以將不規範的數值改為規範這一步不可或缺。

資料清洗怎麼做(三):刪掉多餘的空格

原始資料中如果夾雜著大量的空格,可能會在我們篩選資料或統計時帶來一定麻煩。如何去掉多餘的空格,僅在字元間保留一個空格?

1。 手動刪除。如果只有三五個空格,這可能是最快的方式。

2。 函式法

在做資料清洗時,經常需要去除資料兩端的空格,那麼TRIM、LTRIM、RTRIM這3個函式就可以幫到你啦~

TRIM函式:主要是用來去除單元格內容前後的空格,但不會去除字元之間的空格。表示式:=TRIM(文字)

資料清洗怎麼做(四):欄位去重

強烈建議把去重放在去除空格之後,因為多個空格導致工具認為“顧納”和“顧 納”不是一個人,去重失敗。

按照“資料”-“刪除重複項”-選擇重複列步驟執行即可。(單選一列表示此列資料重複即刪除,多選表示多個欄位都重複才刪除。)

資料清洗怎麼做(五):填補缺失值

由於人工錄入或者資料爬蟲等多方面的原因,會出現缺失值的情況,這就需要我們尋找漏網之“資料”,填充空缺值。

如何統計有多少缺失值?先看ID唯一列有多少行資料,參考excel右下角的計數功能,對比就可以知道其他列缺失了多少資料。

如何定位到所有缺失值?Ctrl+G,選擇定位條件,然後選擇空值。

缺失值的處理方法:

1。 人工補全。適合資料量少的情況。

2。 刪除。適用於樣本較大的情況,樣本較小時,可能會影響最終的分析結果 。

3。 根據資料的分佈情況,可以採用均值、中位數、或者眾數進行資料填充。資料均勻,均值法填充;資料分佈傾斜,中位數填充。

資料清洗怎麼做(六): 用模型計算值來代替缺失值

迴歸:基於完整的資料集,建立迴歸方程。將已知屬性值代入方程來估計未知屬性值,以估計值來進行空值得填充。

極大似然估計:基於缺失型別為隨機缺失得條件下,假設模型對於完整的樣本是正確的,透過觀測資料的邊際分佈可以對缺失資料進行極大似然估計。

資料清洗怎麼做(七):插補法

隨機插補法:從總體中隨機抽取某幾個樣本代替缺失樣本。

多重填補法:包含m個插補值的向量代替每一個缺失值的過程,要求m大於等於20。m個完整資料集合能從插補向量中建立。

資料清洗怎麼做(八):異常值處理

異常值:指一組測定值中與平均值的偏差超過兩倍標準差的測定值。

對異常值處理,需要具體情況具體分析,一般而言,異常值的處理方法常用有以下3種:

1。 不處理

2。用平均值替代:利用平均值來代替異常值,損失資訊小,簡單高效。

視為缺失值:將異常值視為缺失值來處理,採用處理缺失值的方法來處理異常值。

資料清洗怎麼做(九):拆分單元格

按照以下步驟對合並單元格進行拆分並填充:

1。 點選取消合併單元格

2。 空白單元格定位:點選定位-選擇空白

3。 寫上=上個單元格

4。 Ctrl+Enter

資料清洗怎麼做(十):分組計算

透過VLOOKUP函式將欄位合在一起用於計算。

VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

以上是思邁特軟體Smartbi的分享,更多行業乾貨可關注我們下一期的分享。思邁特軟體Smartbi是知名國產BI品牌,專注於商業智慧BI與大資料BI分析平臺軟體產業的研發及服務。經過多年持續自主研發,凝聚大量商業智慧最佳實踐經驗,整合了各行業的資料分析和決策支援的功能需求。滿足終端使用者在企業級報表、資料視覺化分析、自助探索分析、資料探勘建模、AI智慧分析等大資料分析需求。

現個人版提供全模組長期免費使用,有興趣的小夥伴可登陸官網免費試用~