《SEO實戰密碼》——SEO網站結構優化

       一、優化網站的目的:

       從seo角度看,優化網站結構要達到以下幾個目的:

       1、增強用戶體驗。

       2、網站頁面的收錄。

       3、規劃好頁面的權重分配。

       4、內部鏈接錨文字的使用。

       二、搜索引擎友好的網站設計:

       1、避免蜘蛛陷阱。

       一些網站設計技術對搜索引擎來說很不友好,不利於蜘蛛爬行和抓取,這些技術被稱爲蜘蛛陷阱。常見的應該全力避免的蜘蛛陷阱包括如下:

      (1)、flash。

        爲了增強視覺效果使用flash是很正常的,這對搜索引擎的抓取影響不大,但是有些網站整個首頁就是一個大的flash文件,使搜索引擎無法讀取flash文件中的文字內容和鏈接,這就構成了蜘蛛陷阱。雖然搜索引擎在不停的嘗試着讀取flash文件,尤其是裏面的文字內容和鏈接,但整個網站就是一個大的flash文件,從seo角度來說是絕對不行的,我們應該儘量使用html版本的鏈接。

      (2)、session ID。

        有些網站使用Session ID跟蹤用戶訪問,每個用戶訪問網站時都會生成獨特唯一的Session ID,加在URL中。搜索引擎每次訪問也會被當成一個新的用戶,URL中會加上一個不同的Session ID,這樣搜索引擎每次來訪問同一個頁面都會得到不同的URL,後面帶着一個不一樣的session ID。搜索引擎遇到這種長長的session ID,會嘗試判斷字符串是Session ID還是正常參數,成功判斷出Session ID就可以去掉Session ID,收錄正常URL。但也經常判斷不出來,要麼不願意收錄,要麼收錄多個帶有不同Session ID的URL,內容卻完全一樣,形成大量複製內容,這兩種情況都對網站優化不利。

       爲了避免這種情況的發生,跟蹤用戶訪問應該使用cookie而不要生成Session ID。或者程序判斷訪問者是搜索引擎還是普通用戶。

      (3)、各種跳轉。

        除了301跳轉之外,搜索引擎對其他形式的跳轉都比較敏感,如302跳轉、javascript跳轉、flash跳轉、Meta Refresh跳轉。如果必須轉向,301轉向是搜索引擎推薦的、用於網址更改的轉向,可以把頁面權重從舊網址轉移到新網址。

       (4)、框架結構。

        使用框架結構設計頁面,對網站的頁面更新維護有一定的方便性。不過現在的網站已經很少使用框架了,不利於搜索引擎抓取是框架越來越不流行的原因之一。對搜索引擎來說,訪問一個使用框架的網址所抓取的HTMl只包含調用其他HTMl文件的代碼,並不包含任何文字信息,搜索引擎根本無法判斷這個網址的內容是什麼。雖然蜘蛛可以跟蹤框架中所調用的其他HTMl文件,但是這些文件經常是不完整的頁面,比如沒有頁面導航只是正文。搜索引擎也無法判斷框架中的頁面內容應該屬於主框架還是屬於框架調用的文件。所以,在設計網站不要使用框架結構。

      (5)、動態URl。

       動態URL指的是數據庫驅動的網站所生成的、帶有問號、等號及參數的網址。一般來說動態URl不利於搜索引擎蜘蛛爬行,應該儘量避免。

      (6)、javascript鏈接。

        搜索引擎在技術上可以獲得javascript腳本中包含的鏈接,甚至可以執行腳本並跟蹤鏈接,但對一些權重比較低的網站,搜索引擎覺得沒有必要,不會費那個勁。所以網站上的鏈接必須使用最簡單的HTML鏈接,尤其是導航系統。

        如果是針對那些不希望被收錄的頁面,不希望傳遞權重的鏈接,則可以使用javascript腳本阻擋搜索引擎爬行。

       (7)、要求登錄。

        有些網站內容放在用戶登錄後才能看到的會員區域,這部分內容搜索引擎無法看到。蜘蛛不能填寫用戶名、密碼,也不會註冊。

       (8)、強制使用cookies。

        強制使用cookies,用戶瀏覽器如果沒有啓用cookies,頁面顯示不正常。搜索引擎蜘蛛就相當於禁用了一個cookies的瀏覽器,強制使用cookies只能造成搜索引擎無法正常訪問。


        2、清晰的導航。

        站在用戶的角度,網站導航系統主要解決兩個問題:用戶現在所在位置、下一步要去哪裏

        站在SEO角度,網站導航系統應該注意以下幾點:

      (1)、文字導航。儘量使用最普通的HTMl文字導航,不要使用圖片作爲導航鏈接,更不要使用javascript生成導航系統,也不要使用flash做導航。

      (2)、點擊距離及扁平化。良好導航的目標是使所有頁面與首頁的點擊距離越近越好。權重普通的網站,內頁離首頁不要超過四五次點擊。網站導航系統的安排對減少鏈接層次至關重要。

      (3)、錨文字包含關鍵詞。導航系統中的鏈接通常是分類頁面獲得內部鏈接的最主要來源,數量巨大,其錨文字對目標頁面相關性有相當大的影響,因此分類名稱應該儘量使用目標關鍵詞。

      (4)、麪包屑導航。麪包屑導航對用戶和搜索引擎來說,是判斷頁面在網站整個結構中的位置的最好方法。正確使用麪包屑導航的網站通常都是架構比較清晰的網站。

      (5)、避免頁腳堆積。頁腳堆積是近來搜索引擎比較反感的做法,,常常被認爲是作弊,造成某種懲罰。


        3、子域名和目錄。

        搜索引擎通常會把子域名當做一個基本獨立的站點來看待。也就是說http://www.domain.com和http://news.domain.com是兩個互相獨立的網站,而目錄http://domain.com/news/就純粹是http://www.domain.com的一部分。如果拋開其他因素,只看着兩個URL:http://news.domain.com、http://domain.com/news/,子域名http://news.domain.com的權重稍微高一些,因爲搜索引擎會把這個URl當做網站的首頁,主域名很多時候會傳遞一小部分信任度給子域名。但從SEO角度看,子域名和子域名是兩個完全不同的網站,要推廣的也是兩個網站,所有的優化工作都要多做一遍,尤其是外部鏈接建設,網站PR值、權重都會被這兩個獨立的網站分散。主域名經過外鏈獲得高權重,不意味着子域名就獲得了高權重。


        4、禁止收錄機制。

        有的時候,站長並不希望某些頁面被抓取和收錄,如付費內容、還在測試階段的頁面、複製內容頁面等。要確保頁面不被收錄,需要使用robots文件或者Meta Rotos標籤。

      (1)、robots文件。搜索引擎訪問網站時,會先看網站根目錄下有沒有一個命名爲robots.txt的純文本文件,robots.txt用於指令搜索引擎禁止抓取網站的某些內容或指定允許抓取的某些內容。只有在需要禁止抓取某些內容時,寫robots.txt文件纔有意義。robots文件不存在或者是空文件都意味着允許搜索引擎抓取所有內容。有的服務器設置有問題,robots文件不存在時會返回200狀態碼及一些錯誤信息,而不是404錯誤碼,所以就算允許抓取所有內容也要建一個空的robots文件,放在根目錄下。

        最簡單的robots文件:

        User-agent:*

        Disallow:/

        上面這個robots文件禁止所有搜索引擎抓取任何內容。

        User-agent指定適用於哪個蜘蛛。通配符*代表所有搜索引擎,百度用Baiduspider;只適用於google蜘蛛則用:Goolebot。

        Disallow告訴蜘蛛不要抓取某些文件或目錄。例如下面的代碼將阻止所有蜘蛛抓取/cgi-bin/和/tmp/兩個目錄的內容及文件/aa/index.html:

        User-agent:*

        Disallow:/cgi-bin/

        Disallow:/tmp/

        Disallow:/aa/index.html

        Disallow禁止的內容必須分開寫,每個一行。

        Allow告訴蜘蛛應該抓取某些文件。由於不指定就是抓取,所以單獨寫就沒有什麼意思。allow和Disallow配合使用,可以告訴蜘蛛某個目錄下大部分不允許抓取,只允許抓取一部分。但是Allow應該寫在Disallow的後面。

       $通配符:匹配URl結尾的。例如,下面的代碼將允許蜘蛛抓取以.htm爲後綴的URl:

        User-agent:*

        Allow:.htm$

        *通配符告訴蜘蛛匹配任意一段字符。例如,下面的代碼將禁止蜘蛛抓取所有htm文件:

        User-agent:*

        Disallow:/*.htm


       (2)、meta Robots標籤。

        meta robots標籤是頁面head部分meta標籤的一種,用於指令搜索引擎禁止索引本頁內容。

        最簡單的meta robots標籤格式爲:

       <meta name="robots" content="noindex,nofollow">

       上面標籤的意義是禁止所有搜索引擎索引本頁面,禁止跟蹤頁面上的鏈接。

       Goole、Bing、雅虎都支持的meta robots標籤有:noindex(告訴蜘蛛不要索引本頁面)、nofollow(告訴蜘蛛不要跟蹤本頁面上的所有連接)、nosnippet(不要在搜索結果中顯示說明文字)、noarchive(不要顯示快照)、noodp(不要使用開放目錄中的標題和說明)。

       百度的官方說法只支持nofollow和noarchive。

       meta robots標籤內容不區分大小寫,可以寫在一起,以逗號間隔,中間可以有空格,也可以沒有。只有禁止索引時寫meta robots標籤纔有意義。

       使用了noindex meta robots標籤的頁面會被抓取,但不會被索引,頁面URL不會出現在搜索結果中,這一點與robots文件不同。


      (3)、nofollow的使用。

        <a href="http:www.example.com/" rel="nofollow"></a>

       鏈接的nofollow屬性只適用於本鏈接,上面講的meta robots 中的nofollow指的是頁面中的所有鏈接。

       nofollow最初的目的是減少垃圾鏈接對搜索引擎排名的影響,標籤意義是告訴搜索引擎這個鏈接不是經過站長自己編輯的,所以這個鏈接不是一個信任投票。搜索引擎看到這個標籤就不會跟蹤爬行鏈接,也不傳遞鏈接權重和錨文字。

       nofollow通常用在博客評論、論壇帖子、社會化網站、留言板等地方,現在還有廣告鏈接也有使用。


       5、URL靜態化

       現在的網站大多是數據庫驅動,頁面有程序實時生成,而不是真的在服務器上有一個靜態HTML文件存在。當用戶訪問一個網址時,程序根據URL中的參數調用數據庫數據,實時生成頁面內容。因此動態頁面相對應的URL原始狀態也是動態的,包含問號、等號及參數。搜索引擎在發展初期一般不太願意爬行和收錄動態URL,主要原因是可能陷入無限循環或收錄重複內容,造成資源浪費。爲了避免這種情況,建網站時最好將URL靜態化。


        6、URL設計。

       URL在搜索結果中是顯示內容之一。設計網站結構是需要對目錄及文件命名系統做實現規劃。總的原則是首先從用戶體驗出發,URL應該清晰友好、方便記憶,然後才考慮URl對排名的影響。主要有以下幾個方面:

       URL越短越好、避免參數太多、目錄層次儘量少、文件及目錄名具有描述性、URL中包含關鍵詞、字母全部小寫、連字符使用(一般用短橫線分隔)、目錄形式還是文件形式。


        7、內部鏈接及權重分配

        一般說來,網站首頁獲得的內外部鏈接最多,權重最高。網站結構優化要解決的最重要的問題包括收錄及權重分配。大部分網站有多層分類,權重依次下降。在做網站時應該把重點頁面放在內頁,這樣所獲得的權重會比較高一些。





       

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章