高階媒體歸因:沙普利值vs馬爾科夫鏈

Photo of author
Written By CMO

沙普利值 VS 馬爾科夫鏈
沙普利值VS 馬爾科夫鏈

歸因模型不單可以幫助我們分配媒體之間的貢獻功勞,也可以在單一渠道如搜索行銷中分配各個推廣計劃的貢獻功勞。我們在過去的文章中介紹過歸因模型,也曾經說過因為它們各有各的缺點,沒有一種模型是完美的。那麼有沒有一種相對於其他的簡單的歸因模型,更加可靠的模型呢?答案是肯定的。這就是我們今天要講的沙普利值(Shapley Value)方法和馬爾科夫鏈(Markov Chain)的方法。這兩種方法並未提供具體的模型而提供了博弈中計算歸因的方法。由於筆者也是現學現賣,如有錯誤請包涵並指正。

沙普利值對媒體進行歸因

勞埃德·沙普利(諾貝爾經濟學獎2012)
勞埃德·沙普利(諾貝爾經濟學獎2012)

沙普利值是谷歌的各種產品中普遍使用的方法,它有另一個好聽的名字Data-Driven Attribution(DDA)模型。你可以在付費版的Google Analytics,Google Attribution,DoubleClick,和AdWords中使用。沙普利值的計算相當複雜,特別是當參與歸因的渠道增多時將幾何級增長。知乎上已經有各路神仙做了解釋,推薦先看明白算法。為了行文方便我們只做一個簡單的三渠道舉例。

假設我們有搜索引擎推廣,記為P;SEO,記為O;社群媒體,記為S。我們開始進行媒體投放後一共獲得了8個點擊,並取得了2個轉化,記為C。未轉化的記為N。具體的結果如下:

  • S>P>O>C
  • S>P>C
  • O>N
  • P>S>N

接下來你可以忘記我們剛才的試驗了,現在我們把這個結果看成一個整體,一個黑盒子。這點非常關鍵,道理我們最後講。

如果你愛鑽牛角尖,請把這三個渠道想像成三個開關。這三個開關控制開燈,我們接下來看當各種開關情況下所亮的燈的個數。

如果我們只投放P,那麼轉化為0,等號左邊是打開了哪些開關,順序無關,等號右邊是亮了多少燈,記為P=0;同樣S=0;O=0。如果我們僅投放P和O,那麼轉化為0,記為PO=0;僅投放P和S,轉化為1,記為PS=1;僅投放OS,轉化為0,記為OS=0。

三者都投放時,記為POS=2。稍作整理下,我們有下面的輸入條件:

  • P=O=S=0
  • PO=0
  • PS=1
  • OS=0
  • POS=2

由算法我們可以得到下面的結果:

加入順序轉化增益 P O S
POS 0 0 2
PSO 0 1 1
OSP 2 0 0
OPS 0 0 2
SOP 2 0 0
SPO 1 1 0
平均值 5/6 2/6 5/6

由此我們可以算出P、O、S三者是如何“瓜分”這兩個轉化的功勞的。我們對比實驗數據可以粗略看出由於O僅參加了一次轉化所以分到的功勞最少。 P和S一樣多,它們都參加了兩次轉化。

好了我們先把這個例子放一邊,說下馬爾科夫鏈。

馬爾科夫鏈對媒體歸因

數學家-安德雷·馬爾科夫
數學家-安德雷·馬爾科夫

戰鬥民族的數學家安德雷·馬爾科夫對決策的貢獻普遍應用到了歸因上。相對於沙普利值,馬爾科夫鏈更講究“先來後到”。仍然是上面這個例子,我們添加起始點B後有如下情況:

  • B>S>P>O>C
  • B>S>P>C
  • B>O>N
  • B>P>S>N

接下來我們拆成對子:

路徑 個數
B>S 2
B>O 1
B>P 1
S>N 1
S>P 2
P>S 1
P>O 1
P>C 1
O>N 1
O>C 1

根據每個節點到其他節點的概率我們可以畫下面這張決策樹。

全路徑概率圖
全路徑概率圖

我們可以算出這個決策樹中C的概率。由於這裡有個無限循環PS,因此我們可以用無限等比數列求和公式,貌似是高中水平,Sum=a/(1-q),此處a為9/8即1/4 * 1/3 * 1/2 + 1/4 * 1/3 + 1。 q為2/3 * 1/3 = 2/9。這樣Sum就為81/56。還要加上BOC的1/8並減去多加的1,最後得到4/7的概率。

看出來C的各種路徑是無限循環的嗎?
看出來C的各種路徑是無限循環的嗎?

要想得到每個渠道的重要性,我們只要衡量失去它們我們的損失即可。

去除P後只能走O了
去除P後只能走O了

如果P不存在,那麼S也廢了。轉化只能通過BOC進行,轉化數降低到了1/4 * 1/2 = 1/8。如果P走不通會降低1 – (1/8) / (4/7) 即25/32的轉化。

去除O之後還是會有無限循環
去除O之後還是會有無限循環

如果O不存在,那將只剩下前面等比數列圖的下面兩塊。 a = 13/12,即1/4 * 1/3 + 1。 q仍舊為2/9。 Sum = 39/28,減去多加的1為11/28。如果O走不通會降低1 – (11/28) / (4/7)即5/16的轉化。

去除S之後的轉化概率可輕鬆計算
去除S之後的轉化概率可輕鬆計算

如果S不存在,那麼我們把S畫作N,這樣一來總的轉化數降低到了1/4 * 1/3 + 1/4 * 1/3 * 1/2 + 1/4 * 1/2 = 1/4。我們可以這樣算出,如果S走不通了會降低1 – (1/4) / (4/7) 即9/16的轉化。

我們綜上匯總一下,POS的功勞比依次為25/32,5/16,9/16即,25:10:18。發現了嗎? P和S不一樣了!

沙普利值和馬爾科夫鏈歸因結果對比

首先這兩個方法相比基礎的模型如First Touch,Last Touch,Linear等有著優勢,它們考慮到了更多渠道間的互動。正因為如此,這兩者並非將每條轉化路徑歸因後求和,而是理清關係後求整體中的每個渠道的影響力。

不管是沙普利還是馬爾科夫,積極地參與轉化會是提高本身影響力的最佳方法。對於展示媒體這樣的Prospecting屬性的媒體,鋪得更開會比投放更密集來得有效。毛評點GRP = F × A,當GRP固定的情況下,提高覆蓋率A,降低播放強度/頻率F將會是您提高功勞的技術途徑。

其次,相比沙普利值,馬爾科夫鏈的接觸點先後順序更被突出,而且這種順序表現在緊鄰的兩個接觸點移動的概率。這裡說的緊鄰的含義是馬爾可夫鏈就是這樣一個任性的過程,它將來的狀態分佈只取決於現在,跟過去無關。

在這個例子中沙普利值得到的P:O:S結果為25:10:25,而馬爾科夫鏈得到的結果為25:10:18。 S的貢獻更小了。因為S雖然能拿到50%的起始接觸,但是其轉化依賴於渠道P,所以從馬爾科夫鏈的結果來看P比S更重要。

最後,無論是沙普利值和馬爾科夫鏈哪種方法得到的歸因結果都只能代表過去,要應用於未來的預算分配和媒體採購的話,我們還需要進行測試比較變化。從計算成本的角度上講,沙普利值的計算只要參加的渠道總數不是很多計算還不會太複雜。因此谷歌採用沙普利值也容易理解,而且每天只更新一次。馬爾科夫鏈的計算要復雜很多,現在通常的做法是用超過一百萬條隨機路徑來模擬每一個參加渠道的影響,而不是像我們例子中精確計算,計算成本要大許多。

希望上面的例子可以給你一個直觀的認識。篇幅有限,如果有疑問,請通過HubSpot One的公眾號留言提問。謝謝閱讀。

(鳴謝小伙伴Michael Zhang,Misaki Zhou對本文的概念構思進行的指點。)