小學生都能看懂的A/B測試原理

Photo of author
Written By CMO

A/B測試背後的統計原理是什麼?
A/B測試背後的統計原理是什麼?
題記:其實這篇文章醞釀了挺久的,苦於自己不是統計專業科班出身一直沒能落筆。其間曾拜託正在慶應義塾大學院攻讀博士的周夢媛準博士寫一篇入門文章。文章我是看懂了,但是要讓更多的人理解,我覺得還是有許多距離。說明A/B測試的統計學原理其實不難,難就難在如何說得通俗易懂。

2015年筆者曾撰文《A/B測試的正確姿勢是什麼》,此文雖然介紹了A/B測試的一些注意點,卻沒有對一些關鍵的概念如95%的可信度做出解釋,甚至草圖還有錯誤。好在我們現在有一些非常便捷的工具可以幫我們圖形化模擬A/B測試的具體情況,這更加方便我們來解說。本文在多處會使用一個叫A/B-Test Calculator,地址在這裡abtestguide.com/calc/。

轉化率分佈

數字行銷的基礎是轉化率,它多數時候是一個百分百,如CTR,CVR,Open Rate;也有用絕對數表示的,如ROAS。我們知道它們總是被轉化數除以樣本數。假設有5,000名訪客,被轉化了100名,那麼轉化率就是100/5,000=2%。這是我們做“一次”實驗得出的結果。下一屆5,000名訪客可能不行了,只有80名轉化;也可能翻倍了,轉化了200名。在我們還沒開始第二次實驗之前,我們只能假定,我們這套頁面,這些文案,如果它存在一個真實轉化率的話,總在2%周圍。這個假設很重要,因為它不是隨機的。因為如果是隨機的話,出現2%的轉化率,20%的轉化率和80%的轉化率的各自機率可能一樣大。那我們沒什麼好研究了,是不是?

決策並不能用統計來替代
決策並不能用統計來替代

所謂“周圍”,就是平均值為2%。如果我們畫一個圖,橫軸是轉化率(最小值為0%最大值為100%),縱軸是該轉化率出現的機率,那就會出現一個“墳頭”。小學生不需要知道這怎麼來的,只要記住這是T分佈就行了。

平均值為2%的轉化率分佈
平均值為2%的轉化率分佈

那條95%的線是不是很熟悉,它代表在該線左邊的面積佔總面積的95%。如果這條線落在3%,那說明該轉化率小於3%的機率是95%。

為什麼是95%不是94%或者96%呢?這不是什麼科學,人規定的。就像60分及格40分補考,統計學家們就是喜歡95%,並且認為它具有大概率的“美感”。所以滬牌中標(4%)在他們眼裡是小概率發生的事。 (“▔□▔)。當然,我們可以更加嚴格一點,弄個99%;或者鬆一點放個90%。這看個人喜好和精度要求了。
  • 我們之前的文章提到過,相同轉化率前提下,參加的訪客越多,這“墳頭”越高,也就是說我們對真實轉化率更加確信。
  • 還有一點就是不管這“墳頭”有多尖多高,它的面積始終是代表100%的真實轉化率概率,因此所有的“墳頭”的面積都是一樣的。

記住這兩點,下面就好說了。總之“墳頭”面積恆定,只有高瘦和矮胖之分。

轉化率雖然一樣,但是樣本越多,越尖
轉化率雖然一樣,但是樣本越多,越尖

比較轉化率– 統計功效

當我們做A/B測試的時候,說是比較兩個轉化率值的大小擇優錄用,實際上是比較兩個轉化率分佈的大小,這要復雜得多。換句話說,你是拿兩個“墳頭”形狀位置在比較。比如下面這樣,左邊是A:100/5,000,右邊是B:130/5,000。

同樣5,000個樣本,2%轉化率和2.6%轉化率比較
同樣5,000個樣本,2%轉化率和2.6%轉化率比較

看起來右邊那個“墳頭”的轉化率比較左邊要好。左邊的95%線把右邊那墳頭劈成兩部分,左邊是白色,右邊是綠色。綠色的那塊中的B轉化率一定大於95%的A轉化率。

那麼問題來了,B的真實轉化率有多少機會大於95%的A轉化率呢?答案就是綠色部分的面積佔整個“墳頭”的百分比。統計專家們把這個值叫做Power,也就是“勢”或者“統計功效”。綠色面積百分比越大,B真實轉化率好過95%A轉化率的機率就越高。在上面這個例子裡,綠色面積佔B總面積88.86%,即Power=88.86%,88.86%的可能B的真實轉化率會大於95%的A的真實轉化率。換句話說,你要是無動於衷留著A犯傻的概率是11.14%。

細心的你一定發現,只要你移動這條95%線到99%,相應的綠色部分就會變少,那麼能打敗99%真實轉化率A的真實轉化率B就會變少。 Power值會隨著你的嚴苛程度而改變的!

細心的你一定還發現,即使B的真實轉化率出現在了95%線的左邊,它一樣有機會打敗真實的A轉化率。所以我們下面再講一個概念。

比較轉化率– P值

我們上面說了,即便綠色面積佔比不怎麼高,或許還不到90%,我們一樣可以說B的真實轉化率有95%的機率會比A的真實轉化率好。因為我們一旦確定了兩個“墳頭”的形狀位置,便可以通過積分來計算平均分佈的兩個點A和B,B>A的概率。小學生不需要懂積分,只要懂這是一個固定值就行了,因為這裡沒什麼變量,除了確定兩“墳頭”形狀位置的4個輸入參數100,5,000,130,5,000。統計學者們把這個固定值稱作P值,我把它叫做屁值。在學術上P值的應用和理解還有諸多分歧。

統計:能讓不同專家從同一組數據中獲得不同結論的唯一科學
統計:能讓不同專家從同一組數據中獲得不同結論的唯一科學

P值不同於Power,它不會因為你選了90%,95%或者99%而改變,對每個比較它都是一個固定值。如果這個固定值小於0.05,那麼就意味著B的真實轉化率小於A的真實轉化率的概率就小於5%。這就是一般在數字行銷優化中我們選取95%可信度的情況。 P值代表了B和A的差異是否顯著,這種顯著程度是否和你的Benchmark相比有意義,這才是P值的作用。

所以A/B測試的正確姿勢到底是什麼?

我們研究A/B測試的原理是為了在收入風險較小的情況下進行測試。

  1. 首先,你必須要了解你要測的這玩意是不是非隨機。這個要做大量的A/A測試,如果你每屆都做大樣本測試而結果迥然不同,那麼你一定要分析原因去再次剔除影響因素了。比如季節性變化,再比如不同的訪客屬性。所謂GIGO(Garbage in, Garbage out),你需要對你的樣本質量有所考慮。 A/A測試的風險極小,你值得擁有。
  2. 如果測試的一開始B的平均轉化率比A的平均轉化率還糟糕,那麼你就要看P值的趨勢了。如果P值的趨勢變小,那麼說明這可能是個坑了。你要儘早結束測試。因為在現實商業中,這是損失收入的風險。
  3. 反之如果測試的一開始B的平均轉化率比A的平均轉化率高,但是P值在持續上升,那麼這或許是個越測越亂的結局,非常有可能你是在浪費時間。不妨換一個C來測試了,因為B很有可能和A沒什麼區別。

那麼,話說回來,小學生能懂嗎?