International SEO不完全攻略

Photo of author
Written By CMO

有效部署多國多語言網站SEO
有效部署多國多語言網站SEO

國際化品牌的全球化戰略中最重要的一環便是本土化。聽上去很拗口卻是跨國品牌在他鄉落地生根的真諦。對於SEO亦是這樣,你不單要考慮在谷歌、Bing這樣的國際化搜索引擎中每個區域的自然搜索表現,還要考慮像Google這樣的區域霸主。於是乎,針對搜索引擎的本土化將是你促進排名的必由之路。本篇,我們將花一些筆墨來聊聊國際網站或者多語言網站的SEO最佳實踐。

ccTLD,目錄還是子域名?

國際化SEO分為語言和地區兩個角度看問題,地區部分最常被問起的就是這個問題。換句話說,你現在有了一個國際網站www.example.com,你該如何部署你的地區網站。你有三個選擇:

  1. example.cn
  2. example/zh-cn/
  3. cn.example.com

1. ccTLD

這裡解釋一下,ccTLD是指country code Top Level Domain ;它相對於gTLD,即global Top Level Domain 。 .cn,.hk,.co.uk,.co.jp這些都屬於ccTLD,而.com,.org,.net這些都屬於gTLD。 ccTLD是一個強指引,它說明該網站是專門服務該地區之用。因此相對於使用目錄或者gTLD的子域名,ccTLD在排名上有著較大優勢。這裡的排名優勢是指www.example.co.uk的網站在www.google.co.uk上相對於選擇www.example.com/en_gb/和uk.example.com有排名優勢。但是ccTLD也存在一些缺點,我們先把優缺點總結一下:

優點:

  1. 強指引,排名優勢
  2. 獨立網站,有自己的sitemap和robots.txt,受懲罰(如熊貓算法)也不會被“連坐”
  3. 獨立網站,可根據受眾地區單獨優化提速
  4. 可在Google Search Console中單獨設置面向地區
  5. 目標地區受眾能享受到本土化的親切感,容易獲得信任

缺點:

  1. 全新網站需要重建DA注:此處的域名權威性DA,即Domain Authority是Moz的提法。大致取決於鏈入域名的權威性和數量已經域名年齡、受罰歷史等情況
  2. 見效慢,一個新網站要重新被索引
  3. 增加開發託管維護成本

為什麼有自己的sitemap和robots.txt很重要呢?我們先賣個關子,後面講。下圖便是在Google Search Console中設置面向受眾所在國家的界面,請按圖索驥。

你可以在Google Search Console中設置網站面向國家地區
你可以在Google Search Console中設置網站面向國家地區

至於ccTLD的三個缺點非常容易理解。萬事開頭難,雖然後期效果卓越,但開荒期的確很累很費錢。

2. 為每個國家指定目錄

這也是常見的一種做法。我們不廢話,先羅列一下優缺點:

優點:

  1. 見效快,只是原有網站新增頁面,很快就會被索引
  2. 直接使用原網站DA,無需開荒
  3. 成本經濟,無需新建網站 注:某些情況下可能一套網頁多個語言會付出更多維護成本,特別是東西方文字不統一的情況,還有就是各種牆內讀不出的字體和腳本

缺點:

  1. 弱指引,地區排名較弱
  2. 無專門的robots.txt和sitemap,會受其他地區內容牽連受罰
  3. 難以根據受眾地區單獨優化提速
  4. 無法Google Search Console中單獨設置面向地區(必須按不同目錄提交不同資源分別建立GSC網站關聯)
  5. 難以輕易獲得目標地區受眾的信任
  6. 若服務器在國外,會出現無法備案的情況
  7. 對於像Google這樣的搜索引擎,如果中文內容並非佔絕大多數將會影響Google對該網站的信任度和索引量

前面賣了一個關子,為什麼robots.txt和sitemap沒有專門的會成為問題呢?因為這里關係到一個蜘蛛爬行效率的問題。你需要讓蜘蛛優先爬行你關心的那部分,比如你只想讓Google爬取/zh-cn/的目錄,那你可能會利用robots.txt針對Google蜘蛛把其他目錄disallow掉。但是sitemap卻無法為某個特別的搜索引擎定制規則,結果你還是必須要去站長平台去提交指定的sitemap地址。

3. 使用國家兩字代碼的子域名

這種方式也是我們常見的處理方式。優點很明顯,你不用去買多個域名。缺點也很明顯,它依然是一個獨立的網站。我們同樣可以總結一下:

優點:

  1. 中等程度指引,排名優勢一般
  2. 獨立網站,有自己的sitemap和robots.txt,受懲罰(如熊貓算法)也不會被“連坐”
  3. 獨立網站,可根據受眾地區單獨優化提速
  4. 可在Google Search Console中單獨設置面向地區
  5. 不需要為每個國家和地區購買多個域名

缺點:

  1. 中等程度指引,排名優勢一般
  2. 全新網站需要重建DA。根域名對子域名並不傳遞DA。
  3. 見效慢,一個新網站要重新被索引
  4. 增加開發託管維護成本
  5. 目標地區受眾無法充分感受到本土化的親切感,獲得信任能力一般

我們可以看到使用子域名是比較折衷的做法。在三者的比較中,它卻顯得最雞肋。因為如果你可以買幾個域名就能解決一些問題,那實在不應該省這些小錢,特別是對大型國際品牌來講更是這樣。我們在進行規劃的時候更應該考慮前兩者,而筆者更傾向於使用ccTLD,考慮到長遠之計。

hreflang和多語言部署

討論完了多個國家地區的SEO,我們來說多語言的部署。由於多個語言的內容時常會發生重複內容或者大量近似內容,不利於搜索引擎處理,於是就有了hreflang這個屬性標籤。

hreflang是谷歌引進的語言標籤, Google尚未明確表示支持,讀作h-ref-lang,即Hyperlink-Reference-Language 。 hreflang有多種使用方法,其中最常用的是在HTML中直接標出該網頁的其他版本。

假設你有一個頁面其URL為http://example.com/yemian.html。這個頁面有一個英文版本,那麼我們可以用hreflang來標示出來:

<link rel=”alternate” hreflang=”en-US” href=”http://example.com/page.html”>

在page.html上,你必須同樣用此標籤標出簡體中文的版本:

<link rel=”alternate” hreflang=”zh-CN” href=”http://example.com/yemian.html”>

如果你有更多的語言,如我們再加入日語,那麼在每個頁面上我們都需要標出其他所有語言的地址和本語言版本的地址

yemian.html :

<link rel=”alternate” hreflang=”zh-CN” href=”http://example.com/yemian.html”>

<link rel=”alternate” hreflang=”en-US” href=”http://example.com/page.html”>

<link rel=”alternate” hreflang=”ja-JP” href=”http://example.com/peji.html”>

page.html :

<link rel=”alternate” hreflang=”zh-CN” href=”http://example.com/yemian.html”>

<link rel=”alternate” hreflang=”en-US” href=”http://example.com/page.html”>

<link rel=”alternate” hreflang=”ja-JP” href=”http://example.com/peji.html”>

peji.html :

<link rel=”alternate” hreflang=”zh-CN” href=”http://example.com/yemian.html”>

<link rel=”alternate” hreflang=”en-US” href=”http://example.com/page.html”>

<link rel=”alternate” hreflang=”ja-JP” href=”http://example.com/peji.html”>

請注意,這是相互承認的道理。即,你的頁面不能指認其他沒有指認回來的頁面作為你的另一語言版本。

如果你使用多個子域名或者多個ccTLD,你同樣必須通過hreflang來指引搜索引擎理解不同語言版本。在上面例子中中文、英語、日語三者非常不同,被認為是重複內容的可能性極小,但是如果是美國英語和英國英語、葡萄牙葡語和巴西葡語這樣的區別就比較小了。為了不讓搜索引擎認為兩個頁面的內容重複,我們必須要做好hreflang的部署。

在hreflang的使用過程中還有一些錯誤比較常見:

  • 用_(underscore)取代-(hyphen)用於語言地區代碼中
  • 只有地區,沒有語言(只有語言的情況是可以接受的)
  • 地區在前,語言在後
  • 使用多個x-default注:x-default為默認的語言版本,如果客戶端未指定語言版本或指定版本不可用,則服務器將伺服該版本。
  • 在國家地區中使用EU和UK,這兩者並不是標準國家兩字代碼。前者不存在,後者需用GB

國際化SEO的兩個典型錯誤

在本文的最後,我們分享兩個典型的錯誤。

首先是谷歌說:“不要根據IP強制跳轉。”這樣做往往不單會影響收錄而且會影響用戶體驗。大多數時候谷歌的蜘蛛都來自美國IP,谷歌想要看到美國的用戶看到的網頁是怎麼樣的,如果美國用戶看到的頁面和其他國家用戶看到頁面不同那會產生問題。

第二個問題是通過瀏覽器語言,即HTTP Request Header中的Accept-Language屬性,來決定頁面伺服的內容。如果你使用Chrome瀏覽器訪問外語網站時,Chrome一般會問你要不要翻譯,如果你選擇不要翻譯該種語言,Chrome就會把這種語言放到Accept-Language中。通常谷歌的蜘蛛在爬行請求時並不會設置Accept-Language屬性,這樣來說蜘蛛看到的頁面就和用戶看到的會不同。這是典型的content cloaking,我們要注意避免。