爲什麼程序員都推薦Google搜索而不是百度?

很多人,特別是碼農,一提起搜索,肯定是谷歌,現在搭梯子也容易了,使用谷歌的人越來越多了,可是你真的知道爲什麼選擇谷歌嗎?相信大部分人只是跟風。只是知道用谷歌廣告少點,搜索出來的內容準確點。確實如此,使用百度搜索出來的大部分內容其實不是你想要的,而是百度想給你看的,太多廣告了,但是除了廣告爲什麼會覺得搜索出來的內容準確些呢?這就涉及到了兩家搜索公司的核心搜索引擎技術了。
百度
李彥宏提出的專利,網上有詳細內容,太多術語也沒必要了解,簡單說,就是根據指向同一篇文檔的鏈接數目爲文檔排序;然後在搜索時返回排序更靠前的。這很容易理解,就好像學術文檔一樣,越重要越核心的,被引用次數就越多。
你可能會說這不是很好的一種算法麼?
很多網站正是利用這點相互“交換鏈接”

“交換鏈接“,也稱爲友情鏈接、互惠鏈接、互換鏈接等,是具有一定資源互補優勢的網站之間的簡單合作形式,即分別在自己的網站上放置對方網站的LOGO或網站名稱,並設置對方網站的超級鏈接,使得用戶可以從合作網站中發現自己的網站,達到互相推廣的目的。因此常作爲一種網站推廣手段。

並且,中國還有句老話叫“曲高和寡”。這句話是什麼意思呢?意思就是,絕大多數人都是庸俗的,他們更喜歡“酒色財氣”而不是高冷的專業知識……因此,搜“三點透視”,鏈接最多的往往不是“製圖技法”而是三俗……(這可能就是爲啥“搜什麼度娘都給你看黃圖”背後的真相……hahahahh)
那麼我們來看看谷歌的
谷歌
PageRank算法:
它的思路是,先給鏈接數據庫裏的鏈接估算“重要度級別”;然後利用鏈接本身的重要程度,估計它所指向文章的質量——這也很容易理解,被愛因斯坦引用的文章,肯定比被我引用的可靠的太多。同樣的,一個網站越可靠、越嚴肅,它所鏈接的文章質量就越高:反過來說也對,你儘管和別人交換鏈接吧,越和垃圾網站交換鏈接,你的估值就越低。不僅如此。知識的產生,總是從某個點開始、然後星型輻射的。所以,比如像TCP這個詞,最權威的網站是RFC;RFC是純文本,不鏈任何站外文件;但,全世界所有關於TCP的權威文章,都得引用RFC。類似的,當網上出現了某個熱點,這個熱點往往也是由一篇或者幾篇文章/視頻引發的;然後,位於源頭的文章/視頻被其它人引用、擴散……引用/擴散者很可能就會留下原始來源的鏈接(所以爲什麼這麼多,“轉載須標註來源”正是最基本的互聯網道德要求);分析這些鏈接的引用關係,就能識別出源頭。這種“互聯網上的分佈情況”是極難作弊的——至少,依靠個人或者不夠大的組織,是不可能深刻影響互聯網的宏觀結構的。那麼,分析鏈接的重要度,分析鏈接之間的引用關係,找出這個“知識中心點”或者“源頭”;它的文章,就一定是最權威最符合用戶需要的。次一級的,有的轉發者知名度高,有的轉發者擅長由淺入深的科普,有的轉發者能把枯燥的東西變得有趣……他們本身在引用更權威的資料之外,也會成爲重要的轉發源,使得自己成爲“次權威”——就好像某些技術看權威文檔,資料很難懂,但是有人寫博客把他解釋的很生動,令人容易理解:這些作品,當然也應該在搜索結果中排在前列。PageRank正是這麼一種“分析互聯網鏈接走向,找出關鍵節點併爲之評分”的算法。

所以這就從根本上解釋了爲什麼用谷歌能搜索出權威度較高,用戶認爲正確的東西呢?當然我這裏指的用戶是指我們這些程序員,學術從業者之類的,其實生活方面的搜索百度還是較強與谷歌的,比如搜歌曲,以及國內一些東西的時候,各有所強,所以各取所需。什麼時候選擇什麼搜索引擎心裏應該有點(b)數了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章