SEO學習筆記二(SEO實戰密碼讀書筆記)

第二章要了解搜索引擎

上一個筆記已經說道,SEO是保證客戶體驗的情況下迎合搜索引擎

迎合搜索引擎的行爲就是:減少搜索引擎工作量,降低其工作難度,讓搜索引擎輕鬆快速的收錄網站頁面,準確的提取頁面內容。

搜索引擎是機器行爲(百度) 目錄是人工行爲(hao 123)   hao 123 可以被視爲是網站的高質量外部連接(非SEO考慮)

搜索引擎的難點

1 數據更新,對於每天成千上萬的數據更新,爬蟲首先更新權重較高的網頁,之後更新容易解析的網頁,在權重無法提高的情況下,讓自己的網頁容易解析是被爬蟲爬到的一個優化。不要用flash  減少js的使用,有用信息儘量放在遊客就能訪問的位置不要放在登錄才能訪問的位置

2海量數據存儲(這個對SEO的意義不大,暫不考慮)

3索引處理快速有效,具備高可擴展性(暫不考慮)

4查詢處理快速準確(暫不考慮)

5判斷用戶意圖及人工智能(不考慮)

搜索引擎結果展示:

1搜索引擎展示的頁面標題,實際上是搜索結果頁的title 所以這個title的內容要經過仔細推敲。

2收縮引擎顯示的頁面說明有的時候取自html頁面中的相關內容抓取,有的時候取自頁面的description 所以這也是一個需要仔細推敲的地方。

3某些與日期明確相關的頁面,google的搜索引擎會在頁面說明之前寫明日期(例如博客,帖子這類搜索結果就會有明確的日期被標註出來)。

4第四行最左側顯示網址,用戶可以看到頁面來自哪個網站,來自哪個目錄以及文件名信息。百度還會在中間顯示本頁面在百度數據庫中最後的更新日期。

5網頁快照,就是存儲在百度數據庫中的網頁內容,可以供原始網頁出問題時訪問。google還會在快照旁邊提供一個相關網頁

6使用RDFa或是Microdata格式標籤的頁面,google可能會在標題下面用灰色文字機上一樣富摘要,也是一個網頁描述,這個要注意可以加一下。

7谷歌的麪包屑導航這個SEO做不了太多,主要是google的顯示方式

搜索引擎的工作原理

總體分爲三個階段:

1爬蟲爬行抓取獲得html的代碼存入數據庫

   這部分蜘蛛按照網頁鏈接爬行,兩種算法深度有先和廣度優先,由於無論採用哪種算法蜘蛛都不可能爬完整個互聯網,所以可以預見,深度優先對於一個已經被爬到的某個網站的更多頁面被爬到有優勢,而廣度優先則給更多的網站被爬到的機會,但是可能被爬到的網站不會被爬全。這裏首先要注意的一點就是,蜘蛛是爬不全的,所以蜘蛛會選擇去爬一些權重較高的網址,也就是說蜘蛛的進行深度優先和廣度優先的時候並不是完全按照圖的無權重遍歷來做的。

蜘蛛爬行的權重由什麼來決定呢?

a:質量高,資格老,這樣的網站被認爲權重比較高

b:頻繁更新,蜘蛛會看頁面的更新頻率,如果更新頻率較高搜索引擎會喜歡爬

c:導入鏈接和導出鏈接,儘量爲頁面多增加導入鏈接,而且導入鏈接質量越高越好。

2預處理:對頁面數據進行文字提取,中文粉刺索引等處理

3排名:用戶輸入關鍵詞,排名程序調用索引庫數據,計算相關性,然後按格式輸出到搜索結果頁面。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章