再談數據可視化,下一個漲薪點或許就在這裡

Photo of author
Written By CMO

數據可視化是數據理解和數據處理中的重要一環

去年,在討論合格數字行銷者的十大素質的時候,HubSpot One(hubspot.one)曾經指出對數字行銷者而言,網站分析和媒體分析是“賴以生存”的技能,其中包括了做報表的技能和數據可視化的技能

數字分析的三駕馬車
數字分析的三駕馬車

數據可視化(Data Visualization)是理解數據的有效方法,它是讓數據匯報對象更快更具體更準確理解數據背後的問題和機會的手段。不管你用的是Tableau、R、Excel、SAS、Google Data Studio還是其他Infogram這樣的第三方工具,數據可視化總會是數據處理中最後壓軸的工作。如果處理不好,那就會成為Avinash Kaushik所說的Death at the last-mile“死在終點線前”。

避免Chartjunk和Junkchart

顧名思義,Chartjunk就是圖中垃圾元素,這些元素不單讓閱讀者分心失去數據要表達的重點。任何多餘的文字、線條、坐標都會成為Chartjunk。舉個栗子,隨手搜個圖,圖中的英文皆替換為“沒這個會死嗎?”:

“不加這些會死嗎?”
“不加這些會死嗎?”

Junkchart就更要不得了。如下面這個圖,有圖還不如沒圖。

“除了三地18歲可飲酒其餘均為19歲”
“除了三地18歲可飲酒其餘均為19歲”

萬惡的“餅圖”

餅形圖“Pie Chart”非常不利於表達數據間的大小。特別是要多組數據的時候。初學者喜歡用餅圖來表示百分比,這無可厚非,因為餅圖製作簡單使用場景豐富。但我們看看下面這圖:

不但沒有正確排序而且,對那些“小數字”無法表現具體差異
不但沒有正確排序而且,對那些“小數字”無法表現具體差異

“異曲同工”的還有下面這個餅圖,可以體會一下:

等一下,柬埔寨和新西蘭哪個更多些?各佔多少?
等一下,柬埔寨和新西蘭哪個更多些?各佔多少?

下面這個餅圖則完全是為了“好看”而存在:

淪為Junkchart的餅圖
淪為Junkchart的餅圖

HubSpot One建議慎重使用餅圖,僅在少量數據點(如兩個)和為了表現1/2,1/4,3/4,“大多數”的情況下使用。注意這裡的餅圖還包括環線圖“Ring Chart”,道理是一樣的。

專注改變的“線形圖”

線形圖、折線圖“Line Chart”僅用於表示時間線前後的變化趨勢。如果對不同類別的數據點來使用就會產生讓人困惑的效果。下圖就是一個常見的例子,改為柱形圖為好:

自左到右並不是時間變化而是不同品類,用線形圖意義不明
自左到右並不是時間變化而是不同品類,用線形圖意義不明

區別對待不同量級的數據

如果我問您在太陽系中,水星、月球和冥王星相比哪個直徑更大,您是無法在下面這張圖中找到答案的。因為太陽實在太大了,水星、月球和冥王星相對於太陽都只是一個像素。

太陽和太陽系行星大小對比
太陽和太陽系行星大小對比

上圖雖然可以非常直觀地表現出:太陽的確巨大無比,占到太陽系總質量的99.8%很合理;木星和土星兩個氣巨星,以及天王星和海王星兩個冰巨星都比地球大得多;但是要對比水星、月球和冥王星大小就不合適了。

把“巨星們”排出後來比較更直觀
把“巨星們”排出後來比較更直觀

如果某幾個數據點和其他的數據差距非常大的話,可以把它們隔離出來,或者用斷節的柱形圖來表示。另外,如果多個數據,他們的數據量及區別很大的話,可以用其他的方式來表示。線性坐標在這裡就不合適了,適合用對數坐標表示。

如果你要表示少數民族人口的對比就很適合用對數坐標,因為回族的人口是土族的78倍。 

少數民族人口統計
少數民族人口統計

選用合適的坐標

既然上面提到了坐標,我們再強化一下。坐標必須要慎重選取,因為坐標會讓數據產生視覺上的失真。請看下面這個糟糕的例子:

坐標軸錯誤範例
坐標軸錯誤範例

福克斯新聞曾經用過下面這張圖讓人們對邊境拘押上升引起重視,其實並沒有翻倍。

兩年增長20%,並沒有翻倍
兩年增長20%,並沒有翻倍

堆積圖的弱點

堆積圖“Stack Chart”在顯示整體數據對比的同時還可以顯示某個數據集合內部的情況。下圖顯示了一個優秀的百分比堆積圖:

川普和奧巴馬對比明顯
川普和奧巴馬對比明顯

但是堆積圖有一個很大的弱點,那就是不同數據集合間的比較會相對困難。下圖就是一個例子:

由於起點不一,紫色部分的縱向比較困難
由於起點不一,紫色部分的縱向比較困難

更危險的是,如果存在大小分佈,那麼小數據點會失去意義。如下圖:

WTF? !這圖想表達什麼?
WTF? !這圖想表達什麼?

下圖Tableau中也有堆積圖,州與州之間的比較很困難。

紅條長短不一讓其他類別的比較變得困難
紅條長短不一讓其他類別的比較變得困難

成為一個色計師

顏色在數據可視化中起到很大作用,好的顏色佈局能讓讀者更加容易地閱讀數據。比如通常我們用綠色代表好,黃色代表中性,紅色代表差(負數、赤字)。下圖舉例:

顏色和心的大小讓滿意和不滿意立刻凸現出來
顏色和心的大小讓滿意和不滿意立刻凸現出來

另外在熱力圖中,一般低頻會用冷色調,高頻用暖色調,如彩虹色譜。在此就不舉例了。

在企業的實際應用中傾向於選擇企業VI統一的色譜,但是顏色一多後就會犧牲對比度。因此我們需要找到一些平衡點。

再有就是在對比多個產品、企業、國家時,用色也十分有講究。如果你要對比微博和微信,那麼分別用紅色和綠色更能讓人快速讀懂。如果你要對比阿里和Google,那麼你可以選擇橙色和藍色。如果你要對比香港和澳門兩個特區也可以用紅綠兩色。

正如Maureen Stone 在其《Choosing Colors for Data Visualization》一文中指出:Contrast and analogy are the principles that define color design.(對比和類比是定義色彩設計的兩大原則),你既要讓數據展示合理又要符合美學。

數據可視化小貼士

下面我們提一下一些零碎的數據可視化注意點:

  1. 一張圖講一個故事,Say NO to Data Puking
  2. 對於敏感數據,不要畫成絕對數,還用百分比來代替。 
  3. 添加趨勢線有助於幫助理解之後的走勢。 由於數據的浮動頻繁,一段時間的移動均線比實際值更加能表現出趨勢。 
  4. 畫圖前先把明顯不靠譜的outlier去掉。
  5. 添加數據標籤來代替坐標軸上的文字可以讓讀者的眼球省力一些。
  6. 沒個金剛鑽不要用3D圖表,氣泡圖和雷達圖比3D來得有用得多。
  7. 柱狀圖是最頻繁要用到的圖,有時候可以手動自己畫矩形,不必拘泥工具。
  8. 手動畫圖還可以結合PPT的動畫功能,演示時更有說服力。

最後,一些延伸閱讀

本文參考了下面部分資料:

It's Not The Ink, It's The Think: 6 Effective Data Visualization Strategies

Closing Data's Last-Mile Gap: Visualizing For Impact!

Data Visualization Inspiration: Analysis To Insights To Action, Faster!

https://moz.com/blog/impactful-data-storytelling

http://www.businessinsider.com/the-27-worst-charts-of-all-time-2013-6#canada-what-are-you-doing-that-y-axis-scale-those-grid-lines-the-fact-that-you-are-just-saying-every-provinces-age-is-19-except-three-where-its-18-this-is-terrible-9

希望本文對你有所幫助。