A/B測試的正確姿勢是什麼?HubSpot One大揭秘

Photo of author
Written By CMO

你造嗎?谷歌在六月份進行了一項很低調的A/B測試,測試的內容是搜索結果的頻道標籤文字究竟該用紅的還是藍的。雖說“自古紅藍多CP”可谷歌卻是奔著兩者取其一去的。在上週測試結果終於有了定論。谷歌把文字換成了藍色23333。下圖為前後比較。

藍色導航文字最終勝出
藍色導航文字最終勝出

互聯網一哥都這樣嚴謹而細緻地優化自己的產品,我們這些戰五渣還有什麼理由迴避這個普世良方呢?HubSpot One在以往的文章中曾經問過大家,跟著感覺走,還是跟著數據走?相信HubSpot One的讀者都會跟著數據走的。那麼本週HubSpot One將再向你介紹A/B測試的要點和技巧。

你還造嗎?HubSpot One推出公眾微信號了!搜索“HubSpot One數字行銷”或者微信號“digitalma x keting”即可找到我們。

A/B測試,測什麼?

一般來說,凡是和轉化相關的我們都可以進行A/B測試。我們可以比較兩個廣告哪個點擊率更高,可以比較哪個著陸頁面註冊率更高,還可以比較哪個郵件主題的郵件打開率更高。總之我們在測試之前會有一個明確的目標,這個目標是找到對一某個轉化環節的優化機會。

從1 vs 1開始

我們說的A/B測試,即A/B Test也叫Split Test。它是通過比較兩個版本的不同使用結果判斷優劣從而進行改進的科學方法。最常見的就是引進一個新版本,然後將部分流量導入這個新版本。在兩者同時進行的過程中收集數據,當數據達到確信度後判斷孰優孰劣。優勝劣汰。

我們把原來的版本叫Original或者Controlled,而把新引進的版本叫做Experimental或者Variant。前者為A,後者為B。我們經常用兩者之間的比較而不常用三者之間的比較是因為版本越少測試用例就越充足,可以更快得出結果。這和計算機算法裡的兩分查找法也很類似。當然在樣本充足的情況下可以使用兩個以上版本。

A/B測試
A/B測試

保守還是激進?

凡是變動,必然有風險。當你滿懷期待地發布新版本時,說不定也會是你的滑鐵盧。你可以選擇把你所有的流量一分為二,也可以選擇拿出隨機的十分之一流量去嘗試新版本。兩者的優點缺點同樣明顯。前者可以更快得出結果,而後者更加安全。我們選擇A/B測試的範圍要在可控可承受損失的安全邊際內。

由趨勢到細節

在我們做最初幾個測試時,我們需要這個版本具有明顯變化。拿著陸頁來講我們對頁面的佈局可以有完全不一樣的選擇。如果目前我們有的是一個馬上註冊按鈕並且用戶點擊後開始填資料,在新版本中我們可以直接把註冊表單放到著陸頁。等這個測試結果出來了,我們再考慮在頁面上測試按鈕形狀,文字文案這些細節的東西。因為細節的東西很多,但是對轉化率的影響並沒有整體性的變化帶來的影響那樣強烈。還是舉著陸頁的例子,由影響強到弱我們排出這樣一個測試的優先級(僅列出部分項僅供參考):

  1. 頁面顏色和按鈕顏色
  2. 頁面佈局(第一屏佈局,寬度,長度,內容重心)
  3. Call-to-Action位置
  4. 主照片選擇
  5. 是否放置影片
  6. 頁面標題文案
  7. 按鈕文案

經過幾輪測試一個較優的方案就水落石出了。

測試用例的一致性

我們在做A/B測試的時候需要特別關注測試用例的一致性。倘若我們對兩個版本使用不同成分的測試源,得出的結果往往不能讓人信服。譬如,原版本男性訪客居多,新版本女性訪客居多;或又原版本在工作日,新版本在周末測。這南橘北枳的道理很容易理解。因此我們在進行實驗的時候最好兩個版本隨機進行。換句話說同樣的時間,同樣的來源,不同的版本。

在實際操作中,我們可以使用一些主流的A/B測試工具。當前最流行的的工具是Google Analytics,Visual Website Optimizer還有Optimizely。筆者用過前兩者,他們會通過一段JavaScript代碼來分派訪問流量,由於支持本地庫加載,我們不用太擔心國外服務網速的影響。

測試多個(非)相關變量

我們在進行A/B測試實驗的過程中為了節省時間可以同時進行兩組實驗。不過需要注意的是這兩者必須為獨立事件。舉個極端的例子,如測試英文著陸頁的轉化率的同時你可以測試中文著陸頁的轉化率,由於你的兩組著陸頁來自不同的廣告源,實驗結果均為有效。

如果你要測的是同一頁面的標題和標題文字顏色,這不適合僅用兩個版本來測試。你需要測試:

標題A紅色(原版本),標題B紅色,標題A藍色,標題B藍色。

這樣2×2的組合會比一般的實驗稍複雜。

測試需要多久?

最後我們來回答這樣一個問題:A/B測試要進行多久時間才能找到可靠的結果?如果我在新版本上投入了100個訪問轉化了10個,是不是轉化率就是10%,比我原來的5%的轉化率高許多呢?答案是我們需要一個最小的樣本數。因為之後的200個訪問可能一個轉化都沒有。我們如果有一定的概率論常識的話會發現一個實驗對象的實際轉化率通常是這樣的:

確信概率示意圖(注,此處有錯誤,紅色曲線應出頭)
確信概率示意圖(注,此處有錯誤,紅色曲線應出頭)

圖中實驗對象的轉化率會落在藍色或者紅色的“小山峰”裡,曲線越高說明落在此處的概率越大。紅色和藍色的區別在於對實驗對象轉化率的確信程度。實驗次數越多我們對結果就更有把握,因此這個小山峰就會越“瘦”。如果我們那個“小山峰”參照那根左面的參照線有95%都在參照線右邊,那麼我們判定轉化率以某種程度大於參照轉化率是可信事件。為了能讓95%都在參照線右邊,也就是左邊陰影面積要小於5%,我們需要讓“小山峰”更瘦,需要讓樣本數量達到一定量。這樣我們就理解了為什麼我們需要一個最小樣本數量,也理解了什麼時候我們的A/B測試可以結束了。

關於最小樣本數的計算,HubSpot One介紹一個最小樣本計算器。你可以填入你的參照轉化率和期望的優化目標,它會自動算出結果。不過大多數的含有A/B測試概念的軟件,比如我們剛才提到的三種,甚至包括Google AdWords和Google推廣在進行點擊率“優選”的時候都是採用這個方法。

總結

A/B測試是優化轉化率的最簡單,最有效的方法。如何科學地進行A/B測試是每個行銷人員和產品設計人員的必修課。我們要把“我喜歡”和“我想”還有“那樣好看/美觀/大氣”的思維模式改成“數據證明”,“那樣轉化率更高”的思維模式。對於一些有時效性的東西,比如情人節廣告每年都會不同。你需要提前進行測試,以免造成刻舟求劍的困境。