網站重複內容與搜索引擎

SEO優化過程中的重複內容:起因和解決方法 像谷歌等搜索引擎有一個問題。

他們稱之爲“重複內容”:你的內容展示在網站各個不同頁面,他們不知道該展示那個地址。尤其是當人們鏈接到你所有的不同版本的內容時,這個重複內容會更嚴重。

這篇文章旨在讓你瞭解造成重複內容的不同原因,然後找出各個的解決之道。

重複內容原因

誤解URL概念 session ID‘s URL 跟蹤參數 內容搜刮&內容聚合 參數順序 評論分頁 打印頁面 www vs. 無www 概念上的解決方法 “canonical”標籤 識別重複內容

谷歌網站管理員工具 搜索指令查詢title 解決重複內容的實踐操作

避免重複內容 301重定向 使用rel=”canonical”標籤 鏈接鏈向原始內容

總結:重複內容是可以解決的也應該解決 你可以把重複內容比作你站在你一個十字路口,道路標誌上有兩個不同方向都指向同一個目的地,究竟該走哪一條路?更有甚者在當你的目的地不一樣時,情況會更糟糕。

作爲一個讀者,不會管內容從哪裏來,但是搜索引擎不得不挑選一個展示在搜索結果中,因爲他們不想把同樣的內容展示兩次。

比方說,關於關鍵詞X的內容展示在http://www.example.com/keyword-x/這個URL上,同樣的內容也出現在 http://www.example.com/article-category/keyword-x/上,這種情況可不是虛構的哦,在很多cms系統 中都存在這個問題。比如你的文章已經被一些網友收藏轉載了,一些人鏈向你的第一個URL,一些人鏈向你的第二個URL。

這時重複內容問題就來啦。如果所有關於這個關鍵字的鏈接都指向一個URL的話,關鍵詞在首頁的機率也會高很多。 重複內容起因 有很多因素可以導致重複內容。絕大部分都是技術上的,一個人決定把同樣的內容放在兩個不同的地方,並不指出原始出處這種情況不是很常見,絕大部分人都會覺 得不舒服。技術上的理由也是很充分。它產生的絕大部分原因是程序員沒有站在瀏覽器或者用戶角度,也沒管搜索引擎蜘蛛,只是按照程序員的思維。

假設之前提到的那篇文章它出現在http://www.example.com/keyword-x/ 和 http://www.example.com/article-category/keyword-x/? 如果你問程序員,他會說它是僅出現一次啊。 誤解URL的概念 那麼程序員都瘋了嗎?不,沒有,他只是再說另一種語言。你看到的整個網站可能都是數據庫驅動的。在那個數據庫裏面,只有一篇文章,網站程序允許數據庫中的 一篇文章可以通過不同的URL訪問得到。因爲在程序員眼裏,唯一的標誌是數據庫中的文章只有唯一的ID,而不是URL。對於搜索引擎,URL纔是一篇文章 的唯一識別符。如果你這樣跟你的程序員說,他纔會意思到問題原因,接着他會像與我共事的大部分程序員一樣,想搜索引擎愚蠢在哪裏以及爲什麼他不能解決這個 問題。

如此他又走向另一個錯誤的思維。 Session ID 你常想着去追蹤你的訪問者的軌跡,比如存儲他們在購物車購買的物品。要做到這一點,你必須給他們一個session(會話)。一個session會話基本 上是訪客在你網站所做的簡短歷史,可能包含內容比如購物車裏面的物品。爲了保持訪客從點擊一個網頁到另一個網頁的會話session,需要存儲子某個地 方。

最常見的解決方法是cookies,然而搜索引擎通常不會存儲cookies。 在這一點上發生了什麼,一些網站系統在URL中使用session ID來返回。在這一點上每個網站上的內部鏈接都會被追加上session ID,而session ID又是唯一的,這樣產生了新的URL,因此重複內容產生了。 使用追蹤和排序的URL參數 另一個引起重複內容的原因是URL參數的使用,雖然參數不會改變頁面內容,比如在跟蹤鏈接裏面。

你會看到 http://www.example.com/keyword-x/ 和 http://www.example.com/keyword-x/?source=rss等對搜索引擎來說都不是同樣的URL。後者可能是允許你跟蹤 來源,它可能會使你的排名變得有點困難,一個非常不好的負面效果。 這個不僅適用於跟蹤參數,它還適用每一個你加在URL後面的參數不會改變你網頁上的實際內容。涉及到參數會改變網頁上產品的順序或者展示另外一個 sidebar這些都會導致重複內容。 內容搜刮和內容聚合 雖然引起重複內容的絕大部分原因在於你自己,或者至少是你網站的過失,有時是其他網站有沒有經你同意使用你的內容。

他們並不總是鏈向你的原始內容,搜索引擎也不知道就會不得不處理你的同樣文章的另外版本。 你的網站越來越流行,遇到的搜刮也越來越多,問題也會越來越嚴重。 參數順序 另一個較常見的原因就是cms不會使用簡潔乾淨的URL,而是使用比如 /?id=1&cat=2,這裏的ID指示文章,cat指示分類。在大部分的建站系統中,這個URL /?cat=2&id=1 也將會渲染同樣的內容,但是對搜索引擎來說他們就是完全不同的。 評論分頁 在wordpress系統或者其他程序裏面會有一個評論分頁的選項。這將會導致文章內容在 文章本身的URL 還有文章的URL+/comment-page-1/, /comment-page-2/ 等的重複。

打印頁面 如果你的cms會產打印頁面而且從你的文章頁面還有鏈接,在絕大部分情況下谷歌會發現這些頁面,除非你特別阻止他們。谷歌該展示那一個版本?一個有廣告和 周邊內容的頁面或者一個只有你文章的頁面。 WWW vs. non-WWW 這是一個最老的問題了,但是當兩個版本都可以訪問時,有時搜索引擎還是會混淆WWW vs. non-WWW重複內容。 一個不常見的情形還有就是http vs https 重複內容。 概念上的解決方法 “canonical”標籤 正如上面確定的,不同的URL產生同樣的內容會導致重複內容是一個問題,但是它可以被解決的。

人類在發表文章時通常可以很容易地告訴你某個文章的正確的URL應該是什麼。搞笑的是有時你問同一公司的3個人會得到3個不同的答案。 總結:重複內容是可以解決的也應該解決 在這些情形中問題需要解決,因爲在最後只能有一個URL。文章正確的URL可以被搜索引擎命名的Canonical。 識別重複內容 你可能不知道你網站上是否有重複內容。就讓我來給你一些方法。 谷歌網站管理員工具 谷歌網站管理員工具是一個很好的識別重複內容的工具。

如果你轉到谷歌網站管理員工具查看你的網站,檢查診斷——>HTML建議,你就看到這樣的 HTML-Suggestions.png 如果頁面有重複的title或者重複描述的話,那裏幾乎沒有什麼好事情。點擊它會顯示那些URL有重複標題或者描述將幫助你識別出問題。問題是如果你有一 篇文章關於“keyword -X”顯示在兩個分類裏面,他們的title可能會不一樣。

比如他們的標題會是”Keyword X – Category X – Example Site” 和 “Keyword X – Category Y – Example Site”. 谷歌不會把他們作爲重複標題,但是你可以通過搜索找到他們。 查找title或者其他片段 有幾個搜索運算符在這種情況下是非常有幫助的。如果你想找到你網站上包含你的關鍵字“X”文章的所有URL,你可以輸入在谷歌搜索框中輸入以下指令: site:example.com intitle:”Keyword X” 複製代碼 谷歌將會展示你在example.com上所有頁面包含那個關鍵詞的。

你搜索title部分的關鍵詞越具體,也越容易找到重複內容並清除他們。你也可以使用同樣的方法來識別別人網站上有沒有你的重複內容。比如說,你文 章的完整title是Keyword X – why it is awesome,你可以搜索 intitle:”Keyword X – why it is awesome” 複製代碼 谷歌會返回所有網站上包含這個title的。有時你也可以搜索你文章中的一兩個句子,因爲有些內容搜刮 的人可能會改掉你的title。

在某些情況下,當你搜索的時候,谷歌可以會在結果最後顯示如下的提示: 這就是一個信號說谷歌已經刪除了重複的數據結果。這顯然是不好的,你可以繼續點擊進去查看其他的結果來看是否有助於你解決這些問題。 解決重複內容的實踐操作 一旦你決定那個URL是你文章該規範化的URL,你就不得不開始一些規範化的過程(好的我知道我很囉嗦已經說了好幾遍了)。

這基本上意味着讓搜索引擎知道和讓他儘快發現這個規範化版本。這裏有四個解決這個問題的方法: 不要產生重複內容 把重複內容重定向到規範化的URL 在重複頁面添加一個link Canonical標籤 在重複內容頁面添加一個超鏈接到規範化的URL 避免重複內容 對於上述引起重複的內容的原因有些很簡單的方法修復他們 URL中的session ID?

通常你可以你的系統設置裏面取消 有打印頁面 這些都完全沒有必要,你可以使用print 樣式表 在wordpress中使用評論分頁 這個問題你可以在設置裏面取消評論分頁嘛 參數的不同順序 告訴你的程序員建立一個代碼來在同樣的順序上排序(這裏通常指代的是URL factory) 跟蹤參數問題 大部分情況下你可以使用hash值#號來代替參數跟蹤營銷活動 WWW vs non-WWW問題 選擇你想要的版本並重定向一下堅持下去。你可以在谷歌網站管理員工具裏面設置。 如果您的問題不是那麼容易解決,它可能仍然是值得的付出努力來防止出現完全重複的內容。以上就是迄今爲止最好的解決辦法。

301重定向重複內容 在某些情況下,不可能完全阻止你使用的系統文章內容產生錯誤的URL,但是你是可以重定向他們的。如果這個對你不符合邏輯(我能夠理解)你千萬要記住在跟 你的程序員說的時候。此外,如果你解決了重複內容問題,確保你把所有老的重複內容URL重定向到合適的規範化URL。 使用rel=”Canonical” 有時你不想去或者不能解決文章的重複問題時,但是你必須知道這是錯誤的URL。對於這個特殊的問題,搜索引擎也引進了這個 Canonical 元素。

它放置在您網站上的一部分看起來像這樣: 複製代碼 在這個Canonical link標籤裏面的href部分你放置文章正確規範化的URL,當谷歌或者其他支持這個屬性的搜索引擎發現了這個link元素,它會做一個軟的301跳 轉:它也會傳遞這個網頁的大部分鏈接價值到你的規範化URL。 這個過程會比301跳轉慢,所以你使用301的話將更可取Google’s John Mueller提到http://www.seroundtable.com/goog … redirect-12611.html 鏈回到你的原始版本 如果你不能做到上面這些的話,可能你不能控制內容展示網站上的部分,在頁面頂部或者底部添加一個鏈接指向你的原始頁面也是個不錯的主意。還有一些其他的你 想在你的RSS feed中添加一個鏈接指向你的文章。

一些搜刮者可能會過濾掉這些鏈接,但是一些可能會留在那裏,如果谷歌計算到好幾個鏈接指向你的文章它也會很快知道這就是確切的規範化文章版本。 總結:重複內容是可以解決的也應該解決 重複的內容無處不在發生。我還沒有遇到超過1000頁面的網站沒有一點重複內容。

這件事需要你在任何時候保持關注。這是可以解決的而且回報會很多。在解決了重複內容之後你的高質量內容網頁排名可能會飆升。當然首先你要識別確定這些問題,幫助你的程序員想出解決問題的方案甚至幫你解決問題。

本文來自:北京SEO  www.seohua.net

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章