Summer。桑莫。夏天

發表文章

目前顯示的是 11月, 2016的文章

網站如何控制索引範圍？

11月 24, 2016

網站如何控制索引範圍？過去在操作規模較小的網站時，重點往往是增加網站的網頁索引數，但操作大型網站除了增加索引數外，更重要的是引導搜尋引擎爬取正確的路線/頁面，意即有效控制索引範圍。一方面是不浪費索引的額度（Google對每個網站都有一定的索引額度），另一方面也是不增加我們網站本身的流量負擔（CDN等也是很貴的）。網站結構避免重要頁面埋得太深而不易被索引，重要的頁面離首頁愈近愈好，愈多內部連結連到愈好。網址結構三層以後的網址易被robot忽略。例如： http://sample/abc/def/ghi ，其中「def」是第三層，「ghi」是第四層。網址太長可能會遭到robot捨棄。但根據我的觀察，這樣的狀況是很少的，但如果使用site指令是可以發現有這樣的狀況，超過某個長度後的網址便不完全比對。因此，重要的頁面要放在三層以內，確保網址不會因為太長而被捨棄索引。內部連結要妥善設計，必要時加上nofollow 避免robot迴圈般的爬取網址，或爬某個需要登入或偽連結，導致連不到重點和深層連結。為什麼我會注意到這個問題呢？因為在Search Console上，我常看到報錯上顯示一個很有趣的狀況... 網站上有些功能是需要登入才能使用的，因此當點擊這個連結的時候，如果使用者沒有登入，就會回傳登入頁面。若是robot做這個動作，它就會看到soft 404，也就是想要找的頁面不見了，但又沒有回傳404。這樣的功能問題在我們網站上好像挺多的，例如：商品檢舉（登入後，點擊商品檢舉連結，會跳到填寫檢舉表單頁）－－我常常看到一種報錯－－soft 404，來源是某個需要登入的連結，範例： http://goods.ruten.com.tw/item/violate.htm?123456789 ，這就是因為robot在爬這個商品頁時，遇到這個連結，跟著進去發現需要登入(被轉址導到登入頁)而產生的。這種浪費robot時間資源、對自己網站產生無謂流量的狀況應該要盡量避免。解決辦法，最簡單的就是當使用者沒有登入的時候，就不要顯示這個連結；或是，在這個連結上加入「nofollow」，明確告知robot不要去爬。 canonical 網站格式統一，避免同一頁但不同網址的頁面競爭排名。使用canonical可能會導致網站總索引數下降，但...

閱讀完整內容