SEO:重複內容(Duplicate Content)
網站中或網站間存在許多重複內容,而搜尋引擎為了提供使用者最佳的搜尋結果,便會對這些內容作區別,將最原始的資料或最佳的內容排在搜尋結果的最前面。
在某些情況下,重複內容是無法避免的,而這些重複內容損害了網站或網頁的排名。 因此,我們可以對這些重複內容做處理,修正搜尋引擎對它們的解讀。 這裡的搜尋引擎是以Google為主。
什麼重複內容?
先談談什麼是"重複內容"(Duplicate Content)。
Google對於重複內容的定義如下...
在相同或不同domain下,某些區塊的內容是類似的或完全一樣的。 (可參考 重複的內容 (Google網站管理員工具) )
由此定義可知,"重複內容"的狀況可以區分為兩種狀況:相同domain與不同domain。
相同domain的可能狀況發生於同時有列印版本的網頁。 不同domain的可能狀況發生於論壇討論、購物網站的資訊。
重複內容會有什麼後果?
如前面所說,網站中或網站間存在許多重複內容,而搜尋引擎為了提供使用者最佳的搜尋結果,便會對這些內容作區別,將最原始的資料或最佳的內容排在搜尋結果的最前面。
當搜尋引擎發現重複內容是惡意產生的,例如為了增加錨定文字(Anchor Text)或連結數量而不斷重複內容放置於不同網站或不同網頁中。如果狀況嚴重,搜尋引擎甚至會將此網站永久從搜尋結果中移除。
當然也有些重複內容的產生,並非惡意,因此Google並不會做懲罰,例如:
- 論壇(由於討論類似的主題或引言,論壇同時會有相同與不同domain重複內容的情形)。
- 購物網站(相同商品在不同網站販賣,但商品資訊是相同的)。
- 為列印或行動裝置而設定的網頁版本。
雖然以上這些狀況Google不做懲罰,但我們仍須對重複內容做處理。 因為Google會試圖呈現獨一無二的搜尋結果給使用者而將重複內容作排列,也就是說重複內容會影響搜尋排行。 我們必須告訴搜尋引擎,這些重複內容中,哪一個頁面是我們希望呈現給使用者的(也就是排在前面),我們就將這個建議的定址的URL告訴搜尋引擎。 這個動作稱為"Cannonicalization"。
重複內容的處理
對於重複內容的處理方式有以下幾種:
- 301 Redirect:使用永久轉址來做轉址的動作(使用於更新文章或換網址)。
- URL的格式要一致:有些重複內容的出現是因為網址格式的不同所導致,例如" http://site.com/page"、" http://site.com/page/"、"http://site.com/page/default.htm",而其實它們都是指向同一個頁面。
- 告訴Google所要使用的domain,例如要使用"http://www.site.com" 或 "http://site.com"。
- 對於重複內容頁面使用"rel="canonical"(使用於頁面分於列印版本、行動裝置版本),而這個做法也就是匯集重複頁面的link juice到特定頁面上,以提升搜尋排名。例如:
<link rel="canonical" href="http://site.com/index.html">
。 - 避免重複內容的出現。
重複內容的檢測
在這裡有提供兩個小工具來檢測網頁的相似度。
將兩個要比對的網址輸入,即可檢測此兩個頁面的相似度(提供百分比)。
將兩個要比對的網址輸入,即可檢測此兩個頁面的相似度(提供百分比)。
一般來說我們無法得知到底兩個頁面的相似度為多少時會被判定為重複內容,而這樣的相似度也並非完全固定,而是與內容字數量有關(偷偷不專業說我會抓個30%,也就是盡量讓頁面的相似度不要超過1/3)。我們只要抓緊一個原則就好:提供優質內容。只要是提供優質的內容給使用者,搜尋引擎必定會會放在前面。
參考資料
- Duplicate Content Issue: Are You Dealing It Right? - The original post is gone :(
- Google’s Matt Cutts: Duplicate Content Won’t Hurt You, Unless It Is Spammy
- Specify Your Canonical
因為部落格搬家了,因此在新落格也放了一份,未來若有增刪會在這裡更新-SEO:重複內容 (Duplicate Content)。
留言