百度谷歌算法怎麼識別僞原創大揭祕

首先我寫的這篇文章完全源自本人長期觀察總結,如果有何不妥請指正。畢竟我研究SEO也有一段時間,雖然說SEO的最高境界是忘記SEO,但是SEO技術也還是非常有趣的,我研究SEO技術純粹是個人興趣,寫這篇文章也是給各位站長做一個很好的參考。
1、搜索引擎會自動過濾“的,了,呢,啊,兒”之類的重複率非常之高的對排名無幫助的習慣性常語。
2、這裏要談的是爲什麼有時候在轉換近義詞時會無效,下面就算是我個人的經驗總結了。既然市場上有一堆僞原創工具能夠將詞語僞原創比如:將“電腦”僞原創爲“計算機”,那麼有什麼理由不相信強大的搜索引擎不會僞原創?所以肯定的,搜索引擎一定會近義詞僞原創,當搜索引擎遇到“電腦”和“計算機”時,會將他們自動轉換這裏姑且假設爲A,所以很多情況下的近義詞僞原創不收錄的原因。
3、這裏要談爲什麼有時候不僅近義詞轉換了並且打亂句子與段落依然無效。當搜索引擎過濾掉無用詞,並將各類近義詞轉化爲A,B,C,D後開始提取出這個頁面最關鍵的幾個詞語A,C,E(這裏舉個例子,實際可能提取的關鍵字不是ACE三個而是1個到幾十個都是說不定的)。並且將這些詞進行指紋記錄。這樣也就是說,近義詞轉換過的並且段落打亂過的文章和原文對於搜索引擎來說是會認爲是相似度很高的。
4、幾段更深層次解釋爲什麼幾篇文章段落重組的文章依然可能會被搜索引擎識別出。首先既然百度能夠生成指紋自然也能解碼指紋,段落重組的文章不過是重要關鍵字的增加或者減少,這樣比如有兩篇文章第一篇重要關鍵字是ABC,而第二篇是AB,那麼搜索引擎就可能利用自己一個內部相似識別的算法,如果相差的百分數在某個值以下就放出文章並且給予權重,如果相差的百分數高於某個值那麼就會判斷爲重複文章從而不放出快照,也不給予權重。這也就是爲什麼幾篇文章段落重組的文章依然可能會被搜索引擎識別出的原因。
5、我要解釋下爲什麼有些僞原創文章仍然可以被收錄的很好。我上面的推理只是對於百度識別僞原創算法的大致框架,實際上谷歌百度對於識別僞原創的工作要更加龐大並且複雜的多,谷歌一年就會改變兩百次算法足以看出算法的複雜性,爲什麼某些僞原創的文章依然可以被收錄的很好--會有兩個原因:
1)網站自身權重高,哪怕不爲原創照搬別人的文章還是百分之百會被收錄給予權重。
2)搜索引擎絕對不可能完美到過濾所有僞原創,這是不可能的,就好像人工智能的圖靈永遠無法完美到擁有人類的情緒一樣。
個人建議:
1)各位做垃圾站羣的朋友們注意了,你們在可以撈一筆的時候就盡情撈一筆吧。但是也希望你們能夠考慮下今後是不是有別的方向可以做?如果百度一下子更改某些算法使得判斷僞原創更智能,哪怕是一些細小的變動也可能就是你們的滅頂之災吧。另外今年穀歌也對垃圾站宣戰了,呵呵你們自己看着辦吧。
2)好消息:各位老老實實寫原創的站長們,你們絕對選對路了,BUT同時也注意下自己的版權問題哦。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章