再談GA數據的不一致,罪魁禍首竟是它!

Photo of author
Written By CMO

GA中A/B測試的誤差
GA中A/B測試的誤差

關於GA數據不一致的問題,HubSpot One在這些年先後探討過兩次。 2018年《當1+1≠2,Google Analytics出Bug了?讀懂用戶、會話、交互層級》中,我們介紹了維度不同造成的指標差異,在2019年《99%的Google Analytics用戶不知道轉化到底有多少》中,我們進一步對數據差異進行了討論。但是,即便我們深刻理解了不同層級的維度和指標,GA的數據依舊會出現不匹配,這種不匹配甚至會影響到我們A/B測試的結果!這是為什麼呢?本篇將從數據採樣的角度揭示GA數據的底層邏輯。

在閱讀本文之前,筆者假定讀者已經

  1. 能夠正確為報表設定維度和指標
  2. 正確理解User、Session和Hit
  3. 了解GA的Session會在當地時間凌晨進行切割
  4. 理解GA為了報表製作效率採用了抽樣方法

那麼我們開始吧。

GA的抽樣報告

當為生成一份報告而收集的會話數超過50 萬次(對於Google Analytics 360,則為1 億次)時,系統就會自動對這些會話進行抽樣。從報表名稱旁的小綠盾(黃盾)你可以看出是否是100%的數據,還是經過了採樣。

你可以在速度和精度直接選擇
你可以在速度和精度直接選擇

如果不為100%,則顯示為小黃盾。想要避免小黃盾的方法是減少數據量。方法可以是縮短日期範圍或者減少不必要的維度降低複雜性。當你以為小綠盾100% of sessions就萬事大吉了,我只想模仿學長說“圖樣圖森破”,這遠沒有你想得那麼簡單。因為你拿到的數據可能依舊是經過抽樣的!

關閉在報告中啟用用戶指標Enable Users Metric in Reporting

GA的幫助文檔說得很清楚:

2017 年初,Google Analytics(分析)開始更新“用戶數”和“活躍用戶數”指標的計算方法,以期更高效地計算用戶數,從而獲得準確度較高且錯誤率較低(通常低於2%)的結果。

2%是谷歌使用的HyperLogLog(HLL)算法快速採樣後的導致的系統誤差,谷歌使用的準確性參數為14。這就意味著68%的估算誤差範圍在±0.41%;95%的估算誤差範圍在±0.81%;99%的估算值誤差範圍在±1.22%。這可謂相當精確的。

要想避免這個2%的誤差就必須關掉在“報告中啟用用戶指標”

你需要管理員權限關掉這個設置
你需要管理員權限關掉這個設置

當你關掉以後,你的小綠盾才真正意味著100%。請注意,這個開關只是切換計算方法,切換計算方法只是更改利用報告中原始數據來計算指標的方式,而不會更改基礎數據。

那麼你可能要問了,為什麼非要切換回Session呢?一般的A/B測試不都是以User來進行的嗎?其實你真的低估了2%誤差的影響力。

2%看上去有多嚴重?

2%聽上去問題不大,看上去也不大,比如說下面這組圖:

2%誤差下實際值與估算值對比
2%誤差下實際值與估算值對比

看上去沒那麼大區別是不是?我們假設做A/B測試,Control組和Test組各有相同用戶。我們可以看到下表:

使用估算與使用確數比較
使用估算與使用確數比較

上表顯示了使用估算數在不同用戶級下的實際P值。HubSpot One曾經介紹過A/B測試的基本統計原理,P值的意義是有多大可能實驗要證明的命題為假。 P=0.05或5%則意味著,5%的可能該論斷為假,而95%的可能該論斷為真,即95%的置信。當我們使用各兩萬名用戶來進行實驗,並使用估算數據得出Test組效果更好時,此時真實的P值為5.79%,我們用估算值實驗相對於用確數變得不准確,兩者相差16%。這個時候我們不能說95%的情況下Test組比Control組好,因為它只達到了94.21%​。​

當我們使用500萬每組時,使用估算數據達標時,實際的P值為71.04%,也就是說更有可能Control組比Test組更好。當我們要求越嚴苛,使用估算數據和真實數據之間的差距就越大。如果我們對P的要求提升到P=0.001,那麼各兩萬名用戶的結果精度就會直接相差70%

使用估算數據可能得出完全相反的結果
使用估算數據可能得出完全相反的結果

上圖中的HLL為使用HyperLogLog估算值得出的結果。 Impl.為採納,Reject為駁回。

避免估算值造成的影響

通過上面的介紹我們可以看到,即便是2%的誤差也可能“四兩撥千斤”給我們造成麻煩。那麼如何才能使用實際數據進行A/B測試呢?

如果你使用的是付費版的GA,那麼你可以導出非抽樣的報告,也可以通過BigQuery來獲得非抽樣數據。如果你使用的是免費版GA,首先我們要關掉User Metric,然後建立一個Custom Report。如下圖:

建立Custom Report獲得實驗真實數據
建立Custom Report獲得實驗真實數據

至此,我們詳細講述了GA的抽樣和克服誤差嚴謹進行A/B測試的方法。值得一提的是GA4中尚未提供User Metric的開關,Custom Report也未啟用。這將留待我們之後探索。

本文大量參考並引用了Georgi Georgiev的《The Perils of Using Google Analytics User Counts in A/B Testing》。