網站如何控制索引範圍？

過去在操作規模較小的網站時，重點往往是增加網站的網頁索引數，但操作大型網站除了增加索引數外，更重要的是引導搜尋引擎爬取正確的路線/頁面，意即有效控制索引範圍。一方面是不浪費索引的額度（Google對每個網站都有一定的索引額度），另一方面也是不增加我們網站本身的流量負擔（CDN等也是很貴的）。

網站結構

避免重要頁面埋得太深而不易被索引，重要的頁面離首頁愈近愈好，愈多內部連結連到愈好。

網址結構

三層以後的網址易被robot忽略。例如：http://sample/abc/def/ghi，其中「def」是第三層，「ghi」是第四層。網址太長可能會遭到robot捨棄。但根據我的觀察，這樣的狀況是很少的，但如果使用site指令是可以發現有這樣的狀況，超過某個長度後的網址便不完全比對。

因此，重要的頁面要放在三層以內，確保網址不會因為太長而被捨棄索引。

內部連結要妥善設計，必要時加上nofollow

避免robot迴圈般的爬取網址，或爬某個需要登入或偽連結，導致連不到重點和深層連結。

為什麼我會注意到這個問題呢？因為在Search Console上，我常看到報錯上顯示一個很有趣的狀況...

網站上有些功能是需要登入才能使用的，因此當點擊這個連結的時候，如果使用者沒有登入，就會回傳登入頁面。若是robot做這個動作，它就會看到soft 404，也就是想要找的頁面不見了，但又沒有回傳404。

這樣的功能問題在我們網站上好像挺多的，例如：商品檢舉（登入後，點擊商品檢舉連結，會跳到填寫檢舉表單頁）－－我常常看到一種報錯－－soft 404，來源是某個需要登入的連結，範例：http://goods.ruten.com.tw/item/violate.htm?123456789，這就是因為robot在爬這個商品頁時，遇到這個連結，跟著進去發現需要登入(被轉址導到登入頁)而產生的。這種浪費robot時間資源、對自己網站產生無謂流量的狀況應該要盡量避免。

解決辦法，最簡單的就是當使用者沒有登入的時候，就不要顯示這個連結；或是，在這個連結上加入「nofollow」，明確告知robot不要去爬。

canonical

網站格式統一，避免同一頁但不同網址的頁面競爭排名。使用canonical可能會導致網站總索引數下降，但若下降也代表網站有太多虛報的頁面了。

配合<link rel="alternate">，這個指令同時也能使robot得知並索引手機版網頁、AMP網頁，這在官方文件上是有提到的。在做桌機與手機版網址對應的優化前，我們家露天在桌機常搜尋到手機版的頁面，或在手機上搜尋到桌機版的頁面，利用<link rel"canonical">和<link rel="alternate">設定桌機與手機版本網址的對應，這情況已逐漸改善。

robots.txt：disallow

避免robot爬到或索引到不必要的頁面，例如：需要登入的頁面、沒有價值的頁面。好處是避免robot不停地去訪問這些頁面，減少流量的負擔。我們家網站在做這個優化後，在search console上可以看到robot每日讀取的byte數逐漸下降。

另外，你可能會有疑惑，到底什麼時候要用robots.txt：disallow？什麼時候要用meta noindex呢？我的原則是，如果這是server端的controller而非view，或是在某個資料夾底下都要阻擋，那就用robots.txt：disallow；而若只是單一頁面，就可用meta noindex。順到一提，如果想要使用search console上在搜尋結果上移除網址的功能，這兩個動作至少要選一個來做。

search console網址參數設定

避免robot爬到或索引到不必要的頁面，或建議對某些有意義的參數設定逐一檢索。這個要小心設定，對於網站索引數是有一定大的影響的。

另外，使用canonical或search console網址參數設定的判斷標準是比較模糊的，這邊我兩邊都會做設定，但若參數太多太複雜太難考究，我就會以search console網址參數設定為主，避免網站索引數掉得太多。

HTML撰寫

script盡量使用外部檔案，避免robot拆解script中長得像網址的字串，拼成網址後拿去訪問這個網址。同理html中的<a> tag的href中有 javascript:void(0)，UI元件的tab中有 #，也是會被robot拆解成網址去訪問。這在search console報錯上很常看到，做這項優化也是為了不要產生額外的流量負擔！

以上重點是這一年我在露天拍賣網站上，對於控制索引範圍議題的構思、實作與心得，但由於寫文章的時間有限就只能簡短摘要了，歡迎交流討論噢。

由於部落格搬家了，因此在新落格也放了一份，未來若有增刪會在這裡更新-網站如何控制索引範圍？。

搜尋此網誌

Summer。桑莫。夏天