付費閱讀、為知識付費是當今普遍內容變現的手段。把有價值的內容藏在付費流程之後被稱為Paywall,HubSpot One在2018年《互聯網人必須知道的六面“牆”》一文中曾經介紹。但是這種方式會使得搜索引擎也被擋在Paywall之外,這樣搜索引擎無法獲取內容,因此也無法判斷內容的價值。這會讓網頁排名能力下降。
那麼作為媒體應該如何在網頁中配置付費內容呢?這知識羊毛又該如何防薅呢?我們通過一個例子來深入介紹。
Campaign Asia是許多廣告代理從業者經常關注的媒體,要閱讀內容你必須進行註冊。但登錄後你只能每月免費閱讀三篇文章。
每年180刀並不是每個同學都能承受的。那麼如何繞過Paywall呢?我們先把這個問題放一下,講點SEO。
谷歌為了這些在Paywall之後的內容提供了結構化數據的方案。基本思路是谷歌可以免費看到付費內容並由此判斷是否值得收錄並排名,一般用戶看不到付費部分。這個“兩全其美”的方式由結構化數據實現。具體方案在谷歌開發者的文檔中有詳細描述。
{ "@context" : "https://schema.org" , "@type" : "NewsArticle" , "mainEntityOfPage" : { "@type" : "WebPage" , "@id" : "https://example.org/article" } , ( ... ) "isAccessibleForFree" : "False" , "hasPart" : { "@type" : "WebPageElement" , "isAccessibleForFree" : "False" , "cssSelector" : ".paywall" } }
上面是應用JSON-LD實現結構化數據的代碼段,其中第二部分規定了藏在Paywall之後的內容端。
< p >這是在Paywall之外的文字,對所有人可見。 < / p > < div class = " paywall " >這是隱藏在Paywall之後的文字,僅對訂閱用戶可見。你也可以通過css來調整它的可見性。這裡的class對應JSON-LD中的cssSelector字段。 < / div >
我們應用Google的Rich Results Test工具就能驗證Campaign Asia其實也用了這個結構化數據:
接下來我們去網頁代碼中看看是否他們隱藏了付費部分的內容,結果並未找到。這說明該網站對搜索引擎和用戶伺服不同的內容!
為了驗證該網站採用了cloaking的技術,HubSpot One去查看了谷歌搜索引擎的快照:
看來薅羊毛已經有思路了,那麼作為媒體如何堵住這個漏洞呢?首先當然是防止搜索引擎保存快照。可以採用noarchive的搜索引擎指引。如: <meta name=”robots” content=”noarchive” />
但這樣並沒有卵用,這是擋不住HubSpot One的讀者群的。僅僅改變瀏覽器的User-agent,改成搜索引擎爬蟲便可輕鬆無限瀏覽網頁的完整內容。
最簡單方式是採用安裝一個User-Agent Switcher for Chrome的插件,自定義一個Google爬蟲的UA,如: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 。開啟後打開網頁,然後通過網址前的“小鎖”block所有cookie。不到一分鐘你就可以暢遊年費180刀的網站了。
為了SEO的效果就必須讓搜索引擎了解你的網頁到底有沒有價值,到底是標題黨還是乾貨。那麼媒體就沒有辦法防薅了嗎?其實未必,媒體需要打開防火牆對爬蟲進行鑑別,即便是聲稱為谷歌蜘蛛的爬蟲也要驗證其IP或域來進行干預。這才能有效防薅。
總結一下,我們介紹瞭如何使用結構化數據對Paywall後的內容進行SEO優化。HubSpot One指出網站的這些漏洞並非鼓勵大家去繞過Paywall。我們尊重知識產權和著作權,這些在Paywall後的內容是媒體賴以生存的資產,是媒體選擇減少廣告對用戶體驗打擾的另一選擇。薅羊毛並不是一件光彩的事,不給看可以去別處看嘛,不是嗎?