深入探討PageRank（四）：PageRank的危機及搜索引擎的未來

深入探討PageRank（四）：PageRank的危機及搜索引擎的未來

作爲10多年前搜索引擎代表性的技術成果之一，PageRank創造了Google輝煌的10年，同時也締造了Google搜索的時代。然而，互聯網越是往前發展，搜索服務越趨向於多元化、個性化、社區化和垂直化等，傳統的通用搜索引擎越來越不能滿足不同人羣、不同習慣、不同場景的搜索需求，精而深的垂直搜索引擎的興起對傳統搜索市場引發了巨大的挑戰。

正如同生物的生長一樣，任何事物都是有其生命週期，PageRank也不例外。PageRank是否已經越過了它繁盛生命的頂鋒？它是否能夠擔負起當今Web2.0，甚至是雲計算時代的搜索排名之重任？我們慢慢來看~

一、第二代搜索引擎的侷限

第二代搜索引擎是基於用戶輸入關鍵字做文本的相關性分析，通過排序算法（包含PageRank）將排序後的結果反饋給用戶，其代表是Google和百度。大體而言，第二代搜索引擎的侷限可概括爲以下4個方面：

（1）搜索結果不具備個性化因素，任何兩個人得到的結果是一致的，沒有考慮用戶本身的搜索習慣。缺乏智能的感知體系，不能依據用戶搜索偏好進行個性化的搜索推薦。

在第二代搜索引擎中毋庸質疑的是任何兩個人所享受到的搜索服務是完全一致的，不存在個性化的搜索。但是用戶本身的搜索習慣是不同的，打個比方，一個從來不看江蘇衛視《非誠勿擾》相親節目的人，有一天突然在搜索欄中鍵入“非誠勿擾”，他更多地是想找《非誠勿擾》這部電影；然而對於一個經常在看這個相親節目的人而言，搜索結果最好能夠把江蘇衛視的那個娛樂節目反饋給她。也就是說，不同的人在輸入同樣的關鍵詞之後，所期待的輸出結果是不同的，搜索引擎應該能夠依據不同的人，反饋不同的搜索結果。

當然有人會說：我怎麼知道是哪個用戶在使用我的搜索引擎，嘿嘿~問的好。Google可以發個公告說：Google搜索目前提供個性化搜索服務，使用的前提需要進行用戶註冊~這並不是說面向大衆的搜索服務不需要了，你還可以選擇切換或自定義，想用個性就用，不想用還按常理出牌就可以了。我個人感覺這招還是挺吸引人的，當然，上面只是個原型的說辭，具體怎樣推廣就看Google的產品部那幫牛人怎麼設計了。

既然，搜索引擎的發展必然是趨向於精細化、個性化的模式，不同用戶應該享受和獲得不同的搜索體驗和搜索反饋。那麼，如何才能make it to be true？本文第三部分會給出解釋~

（2）搜索內容是基本文本匹配的，搜索引擎本身並不理解你所輸入的查詢語句是什麼意思，缺少語義分析。

當前的搜索引擎的搜索過程全部是基於文本字符串匹配的，即先通過爬蟲從互聯網上下載數據，對數據進行清洗、格式化處理，對所有的文本內容分詞，並創建倒排索引。用戶輸入檢索詞Query，搜索引擎會對Query分詞，通過查找倒排索引表，返回與Query最相關的文本集合，利用PageRank算法排序後反饋給用戶，但搜索引擎本身並不理解你所輸入的Query是什麼含義。

打個比方，比如你輸入“憤怒的小狐狸是誰？”，搜索引擎就先分詞爲“憤怒”、“小”、“狐狸”、“是誰”，然後根據倒排索引表查找到底是哪些文檔同時包含了這幾個詞條，排序後作爲結果輸出。然而，用戶真正關心的是這隻“憤怒的小狐狸”真人是誰，他並不需要知道哪些文檔同時包含了這幾個詞，而只需要知道一個真實的人名即可。

這樣的例子舉不勝舉，再比如說檢索“華中科技大學計算機科學院董勐同學的個人信息”，則用戶期待搜索引擎反饋給他一個整合的數據信息，包括了董勐同學的姓名、年齡、聯繫方式、生日、住址、興趣愛好等等，而不是說只是簡單地把找到包含這句話的網頁給返回過來。

其實到這個時候，搜索引擎已經脫離了我們傳統意義上理解的文本搜索引擎，而是能夠智能地理解你要搜索的含義，並智能地生成你想要的結果。就像你跟一個真正的人在交流一樣，你問他答，他在回答你話的同時，會根據他所儲備的知識和信息推理演算你想要的結果，它是在思考問題，這屬於問答式智能化的搜索引擎。

（3）面向文本內容的搜索，對於多媒體類型內容，如圖片、視頻、音樂、影像的檢索不給力或力不從心。

在Web2.0時代，人們在互聯網上所能接觸、交流和分享的數據類型可謂琳琅滿目，除了傳統的文本信息外，多媒體的數據交互形式深受大衆追捧。有例可考證像人人網、新浪微博這樣的SNS網絡，各種文本、視頻、圖片、音樂信息的共享鋪天蓋地。然而，搜索引擎在應對多媒體數據的時候總是顯得非常的不給力或非常的力不從心。

這裏面的原因，一方面是由於這些信息無法用自然語言量化或很難量化，另一方面是如果對多媒體文件進行細粒度的分析和建模，那對於存儲、計算資源的消耗可以非常恐怖的，你想想一部高清電影有多少幀需要分析就明白了。

當然，不是沒有辦法做，現在是有一些基礎性質的研究，其做法有點曲線救國的味道。以早期的Google圖片搜索爲例，你輸入“海賊王”的話，搜索引擎實質上還是對文字的檢索，返回的是打了“海賊王”標籤的圖片而已，本質上跟傳統的文本搜索無異。如果是一張明明是“海賊王”裏面喬巴的圖片，你的標籤描述寫成了“茄菲貓”，那麼即便它確實是“海賊王”也不可能被檢索到。

如果你輸入“即有藍天、又有白雲、即有溪水、又有遠山、即有美女、又有竹筏、即有細雨、又有花傘的圖片”，那麼很抱歉，你將得到一大堆跟你想要的主題毫無關聯的圖片結果。因爲現階段基於標籤的圖片搜索與文本搜索是一樣的，只能做到如此，它無法像人一樣能夠智能地識別某個圖片是否是用戶想要的。

目前，是有一些音頻搜索的系統可以試用，可以對用戶哼唱的曲目進行檢索，但查準率還有待提升。Google剛剛推出了一項新的圖片搜索服務，用戶可以上傳照片，Google能夠檢索與之類似的圖片。我試了一下，在當前技術背景下，能夠推出這樣一款商用的圖片搜索引擎，已經可以說是相當不錯了，雖然說查準率還不是太高。

對於靜態圖片已經比較困難了，更不用說是動態的視頻影像了。當然科技是在發展，相信未來10年之內的多媒體搜索技術肯定能夠呈現一個爆炸性的發展趨勢，這些個難題的求解並不是沒有可能的，讓我們拭目以待吧。

（4）搜索結果排序依賴於人工智能，並沒有考慮依靠真實用戶的行爲來引導和影響搜索結果的排序。

PageRank雖然說是以網頁之間民主投票的方式產生了網頁的重要性/級別，但這畢竟是一種死板、單一的排序方式，並沒有考慮到實際用戶參與的情況，能不能有一種人直接參與、以人類集體智慧做引導的排序方法呢？

打個比方，當你檢索“如何用U盤做引導盤”類似這種問問題的Query時，很多依據PageRank算出排名靠前的網頁通常會讓你無比失望，你點開一個一個又一個就是無法解決你的問題。然而，有可能你在刷了5、6頁之後，偶然點開一個鏈接，卻很輕易地解決了你的問題。這也就是說，按照PageRank排出來的結果未必真正是你所需要的。機器並不知道這個網頁是否是真的好，它只是按照算法去一步步的執行而已，那麼如何找到對網頁質量更爲智能的判定呢？

我這裏提供一種思路：話說如果爲每個頁面質量設置一個打分器，問題是否會清楚化呢？對於一個頁面而言，所有註冊用戶都可以打分。當用戶輸入Query時，搜索結果頁面左側還是會顯示按照傳統PageRank算法的排列項目，右側則會顯示出與此Query相似輸入所產生的網頁中用戶打分較高的項目。

比如，我們可以這樣說：對於“如何用U盤做引導盤”的檢索，有100萬的用戶覺得網頁A很贊，98萬的用戶覺得網頁B很贊。如果你是一個用戶的話，這樣的搜索推薦對你有沒有吸引力？那可是100萬的人跟你輸入同樣問題的人都覺得很讚的網頁啊！你說你會不會去點着試一下，你說你是去點PageRank排出來的頁面，還是去點別人推薦的？這樣我們就做到了依靠集體用戶的智慧產生更爲精確的結果推薦。當然，頁面質量的評判還需要考慮到當前用戶所輸入的關鍵詞，同一個頁面對於不同的關鍵詞而言，其質量也應該是有所不同的。

這個原型想法跟Facebook的那個“贊”按鈕很相似，具體怎樣去推廣運營還沒有過多的思考，畢竟咱也只是一個小小的程序員而已。

二、浮現出的第三代搜索引擎

在看到pagerank的侷限性以後，一些新興的搜索公司開始嘗試通過提供更精準、更個性化的搜索結果，目前關於第三代搜索引擎的商業化雛形或產品還是有一些的，我大概收集整理了一下：

最近在美國頗受用戶讚譽的另一個搜索引擎swicki，也在個性化和精準搜索方面可圈可點。雖然swicki的大部分內容來自Google，但同樣針是對關鍵詞，swicki可以根據用戶註冊時的使用偏好、搜索習慣，提供出不同的搜索結果。通過對搜索結果的二次評判，swicki還可以逐步校正搜索結果列表。

在國內，除了類似bbmao這樣的社會化搜索引擎開始提供自動分類、聚類、用戶收藏等功能而嶄露頭角外，老牌搜索廠商雅虎中國，也在搜索算法和呈現方式上進行了諸多改進，不僅強化了對社區內容、blog等微內容的數據抓取，而且在個性化呈現、模糊搜索等方面也有較大舉措。

一個例子是，此前一個月，雅虎中國、雅虎全球、阿里巴巴三方聯合推出了一個具有智能模糊匹配功能的搜索引擎——雅虎Imatch。據稱，該系統可以根據用戶的搜索習慣和意圖，智能匹配相關的搜索結果。

Clusty、bbmao等元搜索引擎的自動分類、聚類功能一出，即大受用戶追捧，專家也認爲其提供了比之Google更精準、細分的呈現方式，殊不知Clusty、bbmao等所提供的自動分類、聚類功能本身一點都不新鮮。早在10年前，英國的企業搜索巨擘Autonomy已經提供了同類乃至更智能的呈現方式。例如，Autonomy基於某種專有的模式匹配和概念搜索的算法，可以自動根據文本中的概念進行分類，自動標引，並基於用戶興趣自動匹配出個性化、多側面的直接或隱含的相關檔案。當用戶在搜索框中鍵入某個關鍵詞，出現的結果可能被系統自動分爲10類（或更多類），若其中9類與用戶的查詢期望距離較大，用戶就可以將接近的那個結果作爲查詢條件，進行第二次查詢，直到找到最需要的搜索結果。而Google、百度等第二代搜索引擎則主要使用SVM和KNN算法進行分類，因爲算法的先天缺陷，分類準確率僅能達到80%到85%。並且，如果分類樹有變更，如增加、修改或刪除某個分類節點，整顆分類樹就必須重新學習。

三、搜索引擎的未來：情景搜索？

關於第三代搜索，衆多的創新者已經爲我們勾勒出一個大致的輪廓，作爲對第二代搜索的一種超越，未來的搜索引擎發展套路將趨向於個性化、社會化、垂直化、知識問答化的方向。而搜索引擎的核心技術將從傳統的索引結構轉向包含數據挖掘、機器學習、人工智能、模式識別和語義分析等領域。

雖然迄今爲止，計算機還無法做到完全理解語言，但通過採用基於統計學、概率論和信息論的概念識別技術，可以將信息和信息之間建立相應的關聯規則。用戶可以用自然語言描述自己的問題，搜索引擎會自動判斷用戶查詢條件所描述的概念，藉助於自身的知識庫尋找與用戶搜索概念相關的文檔。顯然，這種語義搜索比傳統關鍵詞搜索更能精準定位用戶的搜索意圖。

試想，爲什麼Google要做Chrome？拋開雲計算、雲操作系統不談，其一個非常重要的原因在於，利用瀏覽器可以獲取、分析用戶對網站的訪問行爲，獲取用戶的操作歷史記錄，從而能夠對PageRank算法規則形成補充。因爲PageRank它只考慮了網頁之間的鏈接關係來確定網頁的級別/重要性，並未考慮用戶具體檢索的內容，用戶檢索的意圖以及用戶當前所處的環境。這說明PageRank並不是完美的，它確實存在些很多不完善的地方。

早在2009年，騰訊就提出了“情境搜索”的概念，目前基於這一概念誕生出了一系列的產品，比如QQ “表情搜索”、QQ的劃詞搜索、QQ聊天過程中會主動地幫你提取關鍵詞並標明，點擊後會觸發信息檢索。基於情境搜索更能貼近用戶需求，搜索對用戶來說將變得無處不在，如影隨形。

打個比方，你在騰訊在線平臺上關注或與好友討論電影《讓子彈飛》，情境搜索將自動挖掘你最關心的內容：效果最好的影院在哪？如何預訂電影票？網友的評價如何？哪些好友支持這部電影？預告片和音樂在哪裏下載？此時你甚至無需打開瀏覽器輸入檢索詞，一次又一次的甄選結果。情境搜索通過深入挖掘用戶的“情境”需求，深入地瞭解到你需要什麼，他不僅會把需要的信息直接推送到你面前，還會整合在線預定、購買等後續服務，甚至可以幫你找到志同道合的“搜友”。

跟傳統搜索引擎相比，情境搜索是基於用戶歷史、用戶偏好、用戶環境，計算用戶情境搜索需求，進而提供信息融合及主動推送的搜索模式，傳統的搜索則需要用戶依靠用戶鍵入關鍵詞，並主動的觸發檢索過程。然而，很多時候，用戶他並不清楚自己到底想要什麼，他的信息量與知識面是有限的，與海量搜索引擎所掌握的信息是不對稱的，甚至用戶根本無法用語言或關鍵詞來表述他的需求。

情境搜索則打破了這一弊端，綜合考慮用戶背景、興趣愛好以及環境的智能化搜索，通過對用戶意圖的深入理解，在用戶使用互聯網服務的各種場景下提供給用戶的最貼切的搜索服務。情境搜索包含7個要素（6W&1H），它強調“以人（Who）爲本”，也就是以用戶爲中心，根據其搜索行爲的時間（When）、地點（Where）、輸入（What）、需求（Want）、習慣（How）、背景（Why）等因素，由情境計算得到最適合的搜索結果，再將這一結果通過用戶的搜索情境直接呈現。

Facebook的興起，被視爲Google的顛覆者。顛覆Google，不是在於Facebook流量已經超越了Facebook，也不在於Facebook的技術有很多強，而是Facebook對人的瞭解遠遠地超過Google，這對Google未來的搜索戰略是極大的障礙。所以Google覬覦社交網站，更多是出於一種自衛的思想。

意識到危機的Google目前也提到了“情境”這個詞，具體技術是“情境發現”（Contextual Discovery），據說2011年會有應用上線。這顯然和PageRank體系的核心有很大區別。決定搜索結果及排序的規則，多出了很多維度，比如上下文關聯、瀏覽習慣、搜索者所處的“情境”等。微軟公司一直在研究一種叫“BrowserRank”的算法，其思路也是引入更多維的衡量模型，比如將用戶在網站停留的時間作爲考量標準之一。實際上，類似這種BrowserRank算法在騰訊等公司也早已經在應用了。

由此可見，隨着情境搜索時代的來臨，“人”的因素將在搜索技術中佔據越來越重要的比重。換句話說，搜索服務商對“人”瞭解越深刻，對其所處環境瞭解越透徹，則其越能在情境搜索中佔據主動。顯然，擁有最海量用戶羣、最長停留時間、最深的互動關係、最強用戶粘度的社交網絡平臺將在這一領域佔得先機，代表的SNS如Facebook、人人網、新浪微博、QQ在線平臺等。

以騰訊爲例，其定位在提供“在線生活”平臺，打造互聯網一條龍的在線服務的戰略發展方向，從即時通信的QQ、騰訊微博、QQ空間到Web QQ再到正在推行的騰訊開放平臺，這幾乎是100%的網民覆蓋，這些都將爲情境計算提供基礎的信息源，從而衍生出智能化的搜索服務。現階段，騰訊野心是佔領移動平臺，對於擁有龐大客戶端和多年移動而已的騰訊來說，也是相當的如魚得水。

Google曾經希望用戶“找到信息，然後快速離開”，這句話在現在來看是非常荒謬的，而Google明顯也已經意識到這一點了。所以Google也在通過iGoogle等手段將用戶留下來，爲未來的搜索演變做儲備。

值得注意的是，“情境搜索”畢竟還處於初級階段，更像是一種“搜索概念”，從傳統搜索到它的演變過程將是緩慢、遞進的過程。但是情境搜索發展的大趨勢是無法阻擋的了的，傳統的搜索服務將在這場歷史變革中被逐步取代，而像PageRank這樣的算法能否經受的住下一個時代搜索科技創新大風大浪的挑戰？能否在搜索引擎發展的歷史長河中沉澱下來？我們還需要拭目以待~

深入探討PageRank（四）：PageRank的危機及搜索引擎的未來

一個信息可視化Demo的設計（一）：系統架構

爲了無法忘卻的紀念：回憶在MSRA/STC

一個信息可視化Demo的設計（二）：Index & Search

一種面向作業流(工作流)的輕量級可複用的異步流水開發框架JobFlow的設計與實現

經典數據結構沉思錄（二）：數組和鏈表

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結