谷歌算法統治互聯網的祕訣

 

 

 

谷歌如何搜索浩如煙海的信息?

導語:美國《連線》雜誌網站日前發表編輯史蒂文列維 (Steven Levy)的文章,揭開了谷歌搜索算法的神祕面紗。

以下是文章全文:

搜索改變生活

想知道谷歌將如何改變你的生活嗎?那麼週四去瓦加杜古會議室看一看吧。在加利福尼亞山景城的這個會議室裏,幾十名工程師、產品經理和高管聚集一堂,討論如何令谷歌的搜索引擎更加智能。今年,谷歌將對其傳說中的搜索引擎算法進行了大約500項改進,而且每一項改進都要通過這樣的會議決定。

每週一次的搜索質量大會,都將可能影響谷歌搜索的結果,例如 三星SF-755p打印機 、 MySpace佈局代碼 ,甚至是 布基納法索 首都 這三個搜索關鍵字,(該國首都恰巧與谷歌此會議室名字相同)。自2006年以來,一直擔任谷歌搜索主管的烏迪曼博(Udi Manber)任會議的負責人。會議將一一提出可實施的改進,同時還會討論數月來在不同國家、不同語言環境中的測試結果。屏幕上分兩列顯示,更改前後同一查詢返回的結果。在討論(吉他 人聲模擬)的查詢結果時,曼博叫道:這個我搜過。

你可能會想,谷歌已經主導搜索引擎市場長達十年之久,應該可以高枕無憂了。畢竟谷歌在搜索引擎市場上的份額高達65%,甚至谷歌一詞已經成爲搜索的代名詞。就像谷歌不願在桂冠面前止步一樣,其競爭對手也不願輕易認輸。多年來,谷歌一直在用其神祕、看起來無所不知的算法來組織世界信息。但最近五年來,很多公司開始對谷歌的一重要觀點發起挑戰。

谷歌認爲,一個單一的搜索引擎,通過技術創新和不斷改進,可以滿足任何搜索要求。而Facebook較早對此發起了挑戰,認爲一些人更願意通過朋友獲得信息,而不是一個沒有名字的算法公式。Twitter能對不斷更新的消息進行時時分析,這就使實時搜索成爲現實挖掘正在進行的討論或閒談。

購物比較網站Yelp通過大衆對商家的等級評定,幫助人們尋找飯店、乾洗店和保姆等相關信息。雖然這些後起之秀無法單獨對谷歌造成威脅,但它們共同預示着搜索行業的一種開放、混沌的未來並不是被一個搜索引擎所主導,而是包含着豐富多樣的服務。

來自必應的挑戰

然而,谷歌最大的威脅是微軟的必應(Bing)。必應使人聯想到探索、美國傳奇歌手Bing Crosby、和《黑道家族》中的Bada Bing夜店,這款重新修整、被賦予新品牌的搜索引擎在去年6月推出時便贏得了樂觀的評價。《華爾街日報》稱其比谷歌更有吸引力。新的面貌和1億美元的廣告戰使微軟在美國搜索市場中的份額從8%躍升至11%如果監管部門批准必應成爲雅虎的搜索服務商,這一份額將增加一倍以上。

必應團隊一直專注於谷歌算法無法滿足的需求。比如,谷歌擅長搜索公共網絡,但卻無法實時跟蹤不斷變化的航班時刻表和機票價格。因此微軟收購了 Farecast網站,該網站追蹤機票價格的變化,並據以預測票價的漲跌。目前,微軟已把Farecast的技術應用加入到必應的搜索結果之中。微軟在其認爲谷歌算法沒有優勢的領域,例如健康、購物領域,也進行了類似的收購。

即使必應團隊承認,在根據搜索詞返回有用信息方面,谷歌還遙遙領先。但他們仍認爲,如果必應可以提供一些擅長的領域,用戶會逐漸習慣使用必應來進行特定的搜索。微軟核心搜索部門副總裁布萊恩麥克唐納(Brian MacDonald)表示:算法對於搜索引擎來說至關重要,但它並不是一切,就像你買車並非只因爲它的引擎。

谷歌仍是最智能的搜索引擎

一個有趣的例子mike siwek lawyer mi表明了谷歌相對於必應的優勢。

阿米特辛格(Amit Singhal)是谷歌的首席工程師,40多歲,性格溫和,他曾因在2001年重寫了谷歌搜索引擎而獲得殊榮。他將這些單詞輸入谷歌搜索框,並敲擊了回車鍵。在極短的時間內,搜索結果便顯示出來。最上面的鏈接指向的網頁給出了密歇根州大急流城一位名叫Michael Siwek的律師。

這是一個很普通的搜索,谷歌每天要處理成千上萬的這種搜索。但事實上這一搜索過程十分複雜,可能使一些搜索引擎誤解。如果把這些單詞輸入到必應,第一個結果是美國國家橄欖球聯盟的歷年球員名單,其中有一個名叫Lawyer Milloy。搜索結果中的下面幾頁,也沒有與律師Siwek相關的內容。

這一對比顯示出谷歌算法的強大,甚至可以說是智能,而這是通過反覆的修正實現的。看起來谷歌擁有解讀用戶需求的神奇力量不論是多麼生僻的搜索,或是有拼寫錯誤。谷歌將這種能力稱爲搜索質量,並且多年來一直竭力完善算法,以產生精確的搜索結果。

現在我就與辛格一起坐在谷歌的43號辦公大樓裏,因爲谷歌給與了我一個前所未有的機會讓我瞭解他們是如何保證搜索質量的。背後的意涵很明確:你可能認爲算法只是一個引擎,但在揭開其神祕面紗之後你纔會發現它是多麼的無所不能。

創新的開始:PageRank

谷歌算法始於PageRank,這是1997年拉里佩奇(Larry Page)在斯坦福大學讀研究生時開發的。佩奇的創新性想法是:基於入鏈接的數量和重要性對網頁進行評級,也就是通過網絡的集體智慧確定哪些網站最有用。隨着谷歌迅速成爲互聯網上最成功的搜索引擎,佩奇和谷歌的另一名創始人塞吉布林(Sergey Brin)將PageRank這一簡單概念看做谷歌的最根本創新。

但這並不是故事的全部。曼博表示:人們信賴PageRank是因爲它是可以進行確認的,但要提供最有用的結果還需要其他技術。這涉及對某些信號、上下文的利用,這樣對於任何查詢,搜索引擎都能將最有用的結果排在最前面。

網絡搜索是一個多方過程。首先,谷歌機器人獲取每個可訪問網站的內容。這些數據將被分解成一個索引(通過文字進行組織,就像書本的目錄),這樣就可以根據內容找到任何頁面。每當用戶鍵入一個查詢,谷歌就會在索引中搜尋相關頁面,然後返回一個包含多達數百萬頁面的列表。最複雜的是對列表進行排序,也就是決定哪些頁面應該出現在最上面。

此時,上下文便有了用武之地。所有搜索引擎都會引入上下文,但沒有一個像谷歌那樣引入得那樣多、應用那樣自如。PageRank本身也是一個信號,同時也是頁面的一個屬性(指其相對於其他網頁的重要性),該屬性可以幫助確定其與查詢內容的相關性,其中的一些信號在現在看來是顯而易見的。

一直以來,谷歌算法都對頁面的標題給與特別的關注,因此標題成爲確定相關性的重要信號。另一個重要技術是錨文本,指的是超鏈接中的可見文本。因此,當你進行搜索時,搜索引擎總能給出正確的頁面,即使該頁面中沒有你找的關鍵詞。這是谷歌早期架構師斯科特哈桑(Scott Hassa)的觀點,他曾與佩奇和布林一起在斯坦福工作。之後,搜索引擎關注的信號還包括新鮮度(對於一些查詢,新近的頁面比較早的頁面更有價值)和地理位置(谷歌知道搜索者的大致地理座標,會將本地信息排在前面)等。谷歌目前使用200多種信號來幫助確定搜索結果的排序。

谷歌工程師發現,一些最重要的信號可能來自谷歌本身。PageRank將受歡迎程度植入了搜索引擎:成千上萬的網站民主地決定將鏈接指向哪些網站。但辛格表示,谷歌工程師還利用了另一種民主成千上萬使用谷歌搜索的用戶。用戶在搜索過程中產生的數據被證明同樣很有價值,這些數據包括他們點擊哪些結果、不滿意時對關鍵詞的更改、查詢關鍵詞與所處地理位置的關係等。這一過程的最直接例子就是谷歌所說的個性化搜索這是一個可選功能,利用用戶的搜索歷史和地理位置來確定他想要找的內容(使用這項功能需要先登錄谷歌賬號)。更通常的方法是,谷歌利用其收集的大量數據支持其算法,谷歌對此有極深的理解,可以解讀隱祕查詢的複雜意圖。
熱狗與煮狗

以谷歌確定同義詞的方法爲例。辛格表示:我們很早就有了一個有趣的發現,那就是用戶會更改查詢的關鍵詞。比如有人會搜索dog,然後改成 puppy,因此搜索引擎就會得知dog和puppy可能是可以互換的。引擎也會知道,當你燒(boil)水時,水會變熱(hot)。我們從人類的語義中學習,這是一個很大的進步。

但這也有障礙。谷歌的同義詞系統知道dog和puppy類似,沸(boiling)水是熱的(hot)。但它同時會認爲hot dog(香腸夾心麪包)和boiling puppy(煮狗)是一樣的。通過路德維希維特根斯坦(Ludwig Wittgenstein)的理論,該問題於2002年得以解決。該理論涉及上下文如何決定詞語的意思。當谷歌抓取並存儲數以億計的文件和網頁時,它會分析哪些詞是彼此鄰近的。包含hot dog的頁面通常也包含麪包、芥末、和棒球,而不會包括對雜種狗的獵殺內容。這就幫助了搜索引擎理解hot dog和其他成千上萬個詞語的意思。辛格說:現在,搜索引擎會知道bio在Gandhi bio中是biography(傳記)的縮寫,而在bio warfare中是biological(生物)的縮寫。

在谷歌的發展過程中,該公司不斷設法增加新的排序信號,並且兼顧不會影響用戶的核心體驗。每幾年就會對系統做一次重大修改(有點像 Windows的新版本),這在山景城是人盡皆知的,但其他人不會關注。

辛格說:我們的任務是對這架以每小時1000公里在三萬英尺高空飛行的飛機的系統進行根本性更改。2001年,爲了應對互聯網的飛速發展,辛格事實上完全改寫了佩奇和布林的算法,以便使谷歌可以快速增加新的信號(新信號之一可以區分商業頁面和非商業頁面,從而爲購物者提供更好的結果),也是在這一年,一位名叫克利什納伯哈拉特(Krishna Bharat)的工程師認爲權威網站上的鏈接應該具有更大的權值,因此設計了一個強大的信號以便賦予這些鏈接更大的可信度(這是谷歌的第一個專利),最新的一項修改的代號爲咖啡因,對整個系統進行了修改,從而使得工程師可以更容易地增加新的信號。

谷歌識別語義的過程

谷歌以善於鼓勵這些創新而聞名,每年公司都會舉辦瘋狂搜索創意內部展示活動,以便鼓勵那些離奇但有應用潛力的創新。但大多數時候,改進的過程是充滿艱辛的,需要矢志不渝的精神,需要面對嘗試過程中的打擊。有一個不成功的搜索已經成爲傳奇:2001年,辛格得知輸入audrey fino時無法搜到預期內容,而只是返回一些讚揚奧黛麗赫本(Audrey Hepburn)的印度網頁,因爲在印度語中fino是好的意思。辛格說:我們知道audrey fino是個人名,但我們的系統沒這麼聰明。

這一失敗使辛格花了多年時間,試圖改進谷歌對姓名的搜索結果因爲姓名佔總搜索量高達8%。爲了解決這一問題,他不得不掌握bi-gram 拆分,也就是將多個詞分割成獨立的單元。比如,new york合在一起組成一個bi-gram,指的是紐約。但也有三個字的情況,比如new york times,意思是紐約時報,很明顯二者指的不是同一樣東西。如果用戶輸入的是new york times square,意思又變成了紐約時代廣場。人類可以很容易做出區分,而谷歌不是由人工控制的,它依靠的是算法。

Mike Siwek這一搜索可以解釋谷歌是如何解決這一問題的。辛格輸入顯示代碼的命令後,我們就可以看到信號是如何決定搜索結果排序的:通過bi-gram可以確定mike siwek是一個人名,lawyer是一個同義詞,mi是一個地名。辛格說:從工程師的角度進行解構,系統會對這些詞進行分割,它會發現lawyer不是姓氏,siwek不是中間名。同時lawyer也不是密歇根的一個鎮,因此它是attorney的同義詞。

這是谷歌從無數次搜索中獲得的可貴知識。石頭可以是rock,可以是stone,還可以是boulder(漂石)。如果用戶輸入 rokc,谷歌仍會知道他想找的是rock。但如果在rokc前加little,谷歌則會知道這是Arkansas(阿肯色州)的首府。Arkansas的縮寫是ark,與諾亞方舟同形,但谷歌會將二者區分開來。辛格說:搜索中最重要的是理解用戶的意圖,因此你不是在匹配詞語,而是在匹配意思。

谷歌一直在不斷改進。近期,谷歌工程師莫琳海曼斯(Maureen Heymans)發現了Cindy Louise Greenslade的搜索結果的問題。用戶輸入這些單詞時,算法會認爲應該找一個名叫Cindy Louise的人,於是在加利福尼亞的加登格羅夫市找到了一名心理學家,卻沒有把姓名爲Cindy Louise Greenslade的人的網頁放在結果的前十名。海曼斯發現,這是因爲Cindy Louise Greenslade習慣將名字縮寫成Cindy L. Greenslade。她表示:我們的搜索引擎應該更聰明一點。於是她增加了一個信號,用來尋找中間名的縮寫。現在正確的結果已經被排在了第五位。

層出不窮的創新

在任何時候,谷歌高效運轉的測試系統都會進行幾十個這種改進。谷歌在全世界專門僱傭了上百人,這些人坐在家裏的電腦前判斷更改後的結果是更好還是更差。但谷歌還有一個更大的測試團隊,這就是成千上萬的谷歌用戶,他們不知不覺地加入了這項長期的質量實驗。

每當工程師想測試一項技術調整時,他們會在一小批隨機用戶中運行這些算法,而絕大多數的用戶扮演的是參照組的角色。需要測試的更改太多,因此谷歌放棄了一次只測試一項技術調整的策略。搜索質量工程師帕特里克賴利(Patrick Riley)表示:在大多數搜索過程中,你同時都處於多個實驗組和參照組之中。但他隨後又做出了更正:事實上,所有搜索都被捲入了實驗之中,因此用戶每次用谷歌搜索,都作了一次小白鼠。

這種靈活性增加信號、更改代碼、立即測試的能力就是谷歌團隊爲什麼說他們可以應對來自必應、Twitter和Facebook的任何挑戰的原因。事實上,在過去的六個月中,谷歌進行了200多項改進,其中一些似乎在模仿(但超越了)它的競爭對手(谷歌表示這只是巧合,稱其多年來一直在增加新功能),其中之一就是實時搜索。

佩奇數月前曾表示谷歌應該每一秒鐘都搜索整個網絡,因此使這一功能備受期待。當用戶搜索具有時效性的話題時,谷歌結果頁面的10個藍色鏈接中會有一個最新結果框。該框帶有拖動條,顯示的是從新聞媒體、博客和Twitter等獲得最新內容。同樣,谷歌使用信號來確保最有用的 tweet(Twitter上發佈的消息)出現在實時信息框中。

除了實時搜索,谷歌還引入了一項新功能,稱作Goggles。該功能可以將用戶手機上拍攝的照片視作搜索請求。谷歌一直努力將搜索變成一種隨時隨地的行爲,Goggles也是該努力的一部分。有了攝像和語音識別功能,智能手機就會變成你的眼睛和耳朵。只要找到正確的信號,任何東西都可以變成搜索請求。

成功的根源:僱傭合適的人才

谷歌的強大計算能力和帶寬爲公司提供了無可爭辯的優勢。有人聲稱這種優勢使創業公司無法對其發起挑戰。但曼博表示,谷歌成爲領導者並非僅僅因爲其基礎設施。他說:最、最、最重要的因素是我們僱傭了合適的人才。

按照所有的標準,陸奇都是算得上一名合適的人才,他是一位48歲的電腦科學家。曾經與陸奇在雅虎共事的曼博表示:我對他懷有最高的敬意。但陸奇去年初離開了谷歌,前往微軟擔任必應團隊負責人。在被問到他的使命時,穿着牛仔和必應T恤、身材瘦小的陸奇字斟句酌地輕聲答道:我們需要始終記住這是一個長久的旅程,這一點極其重要。他的眼神中流露出我不會離開的神情,就像電影《殺死比爾》中的烏瑪瑟曼(Uma Thurman)一樣。

在過去十年中贏得了瀏覽器戰爭的微軟,在搜索方面似乎懷有君子報仇,十年不晚的想法,因爲它確信用戶除了谷歌算法還需要別的東西。微軟搜索發展主管哈利沙姆(Harry Shum)表示:如果我們不對算法進行更改,將很難與現在的贏家抗衡,但我們打算對算法進行改進。

然而,即使必應對算法進行改進,谷歌很可能做出同樣的更改。這就是谷歌成爲這樣一個令人生畏的對手的原因,它已經開發出了一個足夠敏捷的機器,以致可以吸收任何可能對其造成威脅的創新同時提供着對手無法匹敵的高質量搜索結果。任何人都可以發明一種買機票的新方法,但只有谷歌知道如何找到 Mike Siwek。(欽亮)

谷歌算法是一項進行中的工作不斷的調整和改進是爲了提供更高質量的搜索結果。以下是PageRan推出之後的一些主要增加項和更改。史蒂芬列維

附:谷歌搜索大事記

1997年9月:Backrub搜索引擎

Backrub搜索引擎在斯坦福大學的服務器上運行了近兩年,之後改名Google。其突破性創新在於:按照一個網站被鏈接(網絡上指向該網站的鏈接)數量和質量對搜索結果進行排序。

2001年8月:新算法

搜索算法被完全改寫,以便更易於添加新的排序標準。

2003年2月:本地連接分析

這一功能給與權威性網站上的鏈接更大的權值,也使谷歌獲得了首個專利。

2003年夏:Fritz

該項目使谷歌可以不斷隨時更新索引,而無需成批更新。

2005年6月:個性化結果

用戶可以選擇讓谷歌分析其搜索行爲,以便提供個性化結果。

2005年12月:Bigdaddy

對引擎進行了更新,使其可以更廣泛地抓取網頁內容。

2007年5月:通用搜索

在圖片搜索、谷歌新聞、圖書搜索的基礎之上,通用搜索使用戶可以在同一搜索結果頁面上獲得不同媒介的內容。

2009年12月:實時搜索

實時顯示Twitter和博客上的更新。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章