關於數據分析師,你知道數字分析中的十大陷阱嗎?

Photo of author
Written By CMO

網景的創始人Jim Barksdale曾經說過一句名言:“如果我們有數據,那麼我們來看數據。如果我們有的只是一些觀點,那麼聽我的。”(“If we have data, let’s look at data. If all we have are opinions, let’s go with mine.” )

以數據驅動,大數據接入,當下每個企業似乎都沉浸在數據分析的海洋中。數字分析師們,甚至統計專業的學生們也都成為了人才市場中的金蘋果。我們的行銷、生產、客服等部門每天都會產生許多數據。這些數據在那兒不去進行分析,最後就會變成垃圾。這種垃圾不需要分類,直接銷毀就好了。

數據就像垃圾,撿來前你最好想清楚怎麼處理 - 馬克·吐溫
數據就像垃圾,撿來前你最好想清楚怎麼處理– 馬克·吐溫

而數據分析師在我們眼中就是哪些變廢為寶的魔法師,他們彷彿一個個火眼金睛不單知道發生了什麼,正在發生什麼,還知道未來會發生什麼。

數據分析師,恭喜你晉升數據科學家了!
數據分析師,恭喜你晉升數據科學家了!

與之成為鮮明的對比的是85%的高管們稱他們的組織正努力轉變為Data-driven,而只有37%認為他們成功了。那麼,你有沒有被數據分析師坑過呢?或者作為一個數字分析師/數據科學家,哪些陷阱是最容易踩入的呢?

HubSpot One本篇將羅列最容易讓數據分析師們馬失前蹄的十大陷阱。

一,沒有對分析的目的有清醒的認識

正如威廉·愛德華茲·戴明所言“收集數據的最終目的是為了提供行動或建議的基礎”(The ultimate purpose of collecting the data is to provide a basis for action or a recommendation. – William Edwards Deming)。我們許多數據分析師雖然有許多理論知識,精通各種算法和模型,熟練操作各種工具卻對為什麼要進行分析沒有清醒的認識。他們對自己的產出是如何被決策層參考或使用的並不關心。這會導致他們分析的結果完全沒有參考價值,給出的建議也無法落地。這些結果會變成“我們的客戶都是年輕人還要你來分析? ”或者“降價就能賣得動,這還要你來教我? ”。

二,不了解業務全貌和上下游關係

“改編不是亂編,戲說不是胡說”
“改編不是亂編,戲說不是胡說”

數據分析師必須要對企業甚至行業全貌有深刻的理解。這決定了他們是否能正確選擇相關性高的、質量度高的數據源,同時排除雜音干擾。他們需要知道送到自己手上的數據是如何收集的,有沒有經過初步加工,自己處理過的數據又會送到誰的手中,而他們在下一步會如何再加工自己處理過的數據。一旦脫節,這以數據為驅動的巨型機器就將戛然而止。

三,粉飾結果

我們知道在認知偏誤中有兩個著名的概念:確認偏誤(Confirmation Bias)和選擇偏誤(Selection Bias)。前者說的是我們總是期望我們分析的結果與我們主觀的認知相一致,這會讓我們在分析時對迎合我們觀點的證據積極體現,而對反方證據進行打壓甚至不予採用。而後者更是帶著有色眼鏡進行分析。

想吃什麼,我給你做啊? !
想吃什麼,我給你做啊? !

即便數據分析師本身克服了這些偏誤,許多時候不得不為了迎合上級或者客戶的先入為主的觀點進行結果粉飾。

四,採用低質量的數據源

數據大爆炸讓數據分析師面對的數據源從貧乏到天花亂墜。但大多數情況下由於難以保證上游數據收集的可靠性和科學性造成了GIGO(Garbage In, Garbage Out)的效果。如果數據分析師無法甄別哪些是可以採用的數據,哪些又是應該果斷摒棄的數據那顯然分析的結果很難進行質量控制。因此,拿到數據的時候一問收集方法,二問收集對象,三問收集場景是數據分析師必做的功課。

五,對無關指標進行分析,或沒有對數據進行充分細分

數據具有各種維度和指標,有自己的顆粒度。數據分析師必須深刻理解每個指標背後的意義和影響條件。比如落地頁跳出率(Bounce Rate),它雖然一定程度體現了受眾對頁面的態度,但用來評價整體轉化能力尚不充分。郵件打開率也是一樣。對於不同的分析目的,數據分析師有必要進行抽絲剝繭充分發現本質。到底是哪個地區的受眾,哪個設備的受眾,分析要到位。

六,糟糕的數據呈現

HubSpot One對數據可視化問題曾經專門進行探討。隨隨便便用餅圖,線圖和柱圖傻傻分不清,過多的圖表噪音,“魔幻”的坐標軸,這些都是數據分析師常犯的錯誤。數據可視化和數據抓取與數據處理一樣,是數字分析人才必須掌握的技能。要看圖說話也要有一張好圖才行。

七,未達標的AI/ML訓練和未有顯著差異的測試結果

現在,AI和機器學習的熱度某種程度上超過了支撐它們的大數據。和AI沾邊彷彿是時髦的標配,儘管大多數時候那些標榜智能的算法只是一些if/else罷了。機器學習也一樣。

對於數據分析師來說這裡最容易犯的錯誤是不能給予更多耐心。雖然我們說機器學習是不斷進行的,A/B測試也是具有科學背書的,但是在結果達到可用可信之前就進行部署會帶來很大風險。到底是正相關、負相關還是無關,我們必須有足夠的數據來支撐。

八,過度依賴,迷戀各種高級工具

“屠龍寶刀,點擊就送”,我們對“一刀滿級”的渴望是與身俱來的。決策者希望有套軟件系統支持數字轉型,分析師們同樣希望輕點幾下鼠標就可以把分析結果跑出來。

這裡等待奇蹟出現~
這裡等待奇蹟出現~

但現實是越優秀的工具越複雜,越需要專業的人才來駕馭。況且,一些免費或者就在手邊的工具完全可以勝任複雜的分析需求和數據可視化需求,比如GA,比如Excel或Data Studio。

九,對預測分析篤信不疑

數據分析師不是算命的
數據分析師不是算命的

對預測分析的追捧很多時候並不是始於數字分析師,而是把數據分析師神魔化的管理者。我們且不說對數據的解讀中存在了多少倖存者偏見,面對比圍棋棋盤那19×19複雜得多的現實商業環境,我們的分析中必定會忽略大量的影響因素。

Underfitting還是Overfitting
Underfitting還是Overfitting

我們無法用分析的手段進行創意製作畫出新的《蒙娜麗莎》,也分析不出單身男女的未來對象具備哪些條件,fitting的手段,Outlier的處理方式因人而異,連同樣的數據分析出相同的結果幾乎都無法做到。從這個意義上講,在“預後”方面數據分析師可能還不如臨床醫生。

十,使用舊數據,與商業環境變化脫節

最後一個錯誤當然是“刻舟求劍”啦。筆者常常感嘆我們的古人竟然能想出讓後世如此受用的寓言和成語。

刻舟求劍,出自《呂氏春秋》,又黑了一把楚國人。
刻舟求劍,出自《呂氏春秋》,又黑了一把楚國人。

數據分析師在選取數據時選擇怎樣新鮮的數據,過去六個月還是兩年,是否考慮到淡旺季,是否考慮到大環境的變化和用戶行為短期改變。這些是我們需要自問的關鍵問題。昨天的成功並不能代表明天一定能延續,相同的故事和最佳實踐並不一定能滿足下一世代的需求。如何以足夠動態的方法進行趨勢分析,洞察出變化才是有效分析的衡量標準之一。

足球是圓的– 寫在最後

數據分析師是那個“為且僅為不給自己理髮的人理髮的理髮師”,他們不是全知的神,他們也不是你邁向Data-driven的一站式解決方案。他們放棄足彩結果分析,放棄股票漲跌走勢委身於你,是為了和你一同用數據的手段創造更大的價值。

“統計就是用準確和邏輯的方法把一半事實不怎麼準確地說出來”
“統計就是用準確和邏輯的方法把一半事實不怎麼準確地說出來”

所以,請對他們給予更多理解,幫助他們一同克服這些困難,避免這些陷阱。願你不再說“我被我們分析專家坑了。”