如何做好一個垂直搜索引擎 zZ

 先引用幾句話:
  • 1.“確解用戶之意,切返用戶之需。”
  • 2.“門戶網站都想着是怎樣省錢,而不是怎樣花錢來買技術。”
  • 3.“搜索引擎不是人人都能做的領域,進入的門檻比較高。”
  • 4.“只是優秀還不夠,最好的方式是將一件事情做到極致。”(google十大真理)
  • 5.“做搜索引擎需要專注” “對於一項排到第四的業務,門戶很難做到專注。”
  • 6.“用戶無法描述道他要找什麼,除非讓他看到想找的東西。”
  • 7. “所謂楔形,其實就是個倒三角,倒三角的尖端部分代表搜索技術,中部是基於技術的產品應用平臺,最上端是對整個搜索引擎用戶人羣文化的認識和理解,以及現代公司競爭最關鍵也最捉摸不定的所謂品牌。” “楔形”蘊涵的另一個意義是:楔子要打到牆裏,尖端是否銳利很重要,但楔子的破壞性有多強,究竟能在牆面擠壓出多大的空間,其中端、後端的沉穩與厚重纔是關鍵。搜索引擎的技術和理念都是需要時間和經驗的積累的,更是需要長期不斷的完善進步的,絕對不要認爲可以一蹴而就,要達到一個相對成熟領先的搜索引擎從開始到領先的週期一般需要是四年。着急不得。原因是因爲搜索引擎太複雜,而且“用戶無法描述他要找什麼,除非讓他看到想找的東西。” 一切都需要摸索,嘗試,問題需要一個一個解決,用戶的需要得一點點的挖掘。搜索引擎是一個產品,給用戶提供服務的產品,需要長期的不斷的改進升級調整才能持續不斷的提用戶體驗,需要滿足用戶不斷增長並且變化的需求、需要不斷適應網絡的變化。這是因爲網絡環境是不斷變化的、網民的需求也是不斷變化的。千萬不要把搜索當成項目來做,做完了撂那讓用戶去用那你肯定沒戲。

        在搜索引擎領域是講體驗的、新的引擎如果用戶體驗一旦整體上有領先一年以上的差距並且持續2 年,那前期的領先者的優勢就蕩然無存,因爲搜索引擎的用戶轉移成本相對而言是比較低的而且口碑是最佳的傳播方式。如果一個搜索引擎不能持續不斷的技術創新理念創新,那對於這個搜索引擎來說就等於死亡。我們一般形容搜索引擎的領先是以時間計算的。比如:中搜離百度整體差距×年,百度離google的整體差距 ×年,……只要你能在用戶體驗上保持一年的領先優勢持續2年,不需要炒作,一切紛至沓來。在用戶體驗面前,任何的炒作都顯得很渺小。作垂直搜索引擎,麻雀雖小,但是五臟俱全。無論理念文化、產品管理、應用、技術都和搜索引擎的楔形理論沒有什麼區別。所以要做好一垂直搜索必須解決這幾個方面:

       楔形的尖:垂直搜索技術。垂直搜索技術主要分爲兩個層次:模板級和網頁庫級。模板級是針對網頁進行模板設定或者自動生成模板的方式抽取數據,對網頁的採集也是針對性的採集,適合規模比較小、信息源少且穩定的需求,優點是快速實施、成本低、靈活性強,缺點是後期維護成本高,信息源和信息量小。網頁庫級就是在信息源數量上、數據容量上檢索容量上、穩定性可靠性上都是網頁庫搜索引擎級別的要求,和模板方式最大的區別是對具體網頁不依賴,可針對任意正常的網頁進信息採集信息抽取……。這就導致這種方式數據容量上和模板方式有質的區別,但是其靈活性差、成本高。當然模板方式和網頁庫級的方式不是對立的,這兩者對於垂直搜索引擎來說是相互補充的,因爲技術只是手段,目的是切反用戶之需。本文談及的技術主要是指網頁庫級別垂直搜索引擎技術。搜索引擎的確是一項對技術要求比較高的應用,幾年前相關的人才也比較少。現在搜索技術人才多了,相關的技術和技術的應用得相對以前而言更加成熟,但是競爭也更加激烈了。

      垂直搜索大致需要以下技術:

  •   1. 信息採集技術
  • 2. 網頁信息抽取技術
  • 3. 信息的處理技術,包括:重複識別、重複識別、聚類、比較、分析、語料分析等
  • 4. 語意相關性分析
  • 5. 分詞
  • 6. 索引信息採集技術,垂直搜索引擎spider和網頁庫的spider相比應該是更加專業,可定製化。

     可定向性的採集和垂直搜索範圍相關的網頁忽略不相關的網頁和不必要的網頁,選擇內容相關的以及適合做進一步處理的網頁深度優先採集、對頁面有選擇的調整更新頻率……,採集可通過人工設定網址和網頁分析url方式共同進行。垂直搜索對信息的更新有着特別的要求,根據這些特點可以從以下幾點考慮 1.信息源的穩定性(不能讓信息源網站感覺到spider的壓力) 2.抓取的成本問題 3.對用戶體驗改善程度。根據以上幾點制定一種比較好的策略,要做到恰到好處。策略上可以評估網站/網頁更新的係數、網站/網頁的重要係數、用戶點擊係數(或曝光係數)、網站穩定係數……,根據這些係數來確定對這些網站/網頁更新的頻率。再由於新信息和更新了的信息list頁面前面或者首頁,所以對網頁進行很好的分級可以以低成本很好的解決更新問題,係數比較低的網頁一月update一次,稍微高點的一週update一次、中等的幾天到一天一次、高的幾小時到幾分鐘一次。類似搜索引擎的大庫、周庫、日庫,小時庫…… 基於視覺網頁塊分析技術模擬IE瀏覽器的顯示方式,對網頁進行解析。根據人類視覺原理,把網頁解析處理的結果,進行分塊,再根據需要,對這些塊進行處理,如:採集定向、介紹抽取和一些必要的內容的抽取正文抽取……

     結構化信息抽取技術將網頁中的非結構化數據按照一定的需求抽取成結構化數據。有兩種方式,簡單的就是模板方式,另外就是對網頁不依賴web結構化信息抽取方式,這兩種方式可以互取長處,以最簡單最有效的辦法滿足需求。垂直搜索引擎和通用搜索引擎最大的區別就是對網頁信息結構化抽取後再結構化數據進行深度的處理,提供專業的搜索服務。所以web結構化信息抽取的技術水平是決定垂直搜索引擎質量的重要技術指標。其實web結構化信息抽取在百度、google早已經廣泛應用了,如:MP3、圖片搜索、google的本地搜索就是從網頁庫抽取出企業信息,添加到其地圖搜索中的,google通過這種技術正在顛覆做內容的方式。同樣的技術應用還在qihoo、sogou購物、shopping等各種應用中體現。

     簡單的語法分析簡單的語法分析在搜索引擎中非常重要,可以通過簡單的語法分析來改善數據的質量,低成本的獲得某類信息,改善排序,尋找需要的內容…… 信息處理技術信息處理包括的範圍比較廣,主要包括去重、聚類、分析……,這根據需要相關的技術就非常多。數據挖掘找出您的信息的關聯性對於垂直搜索來說非常重要,有效,可以在這些相關性上爲用戶提供更細緻的服務。分詞技術,面向搜索的分詞技術,建立和您的行業相關的詞庫。注意這是面向搜索的分詞,不是面向識別和準確的分詞。就這個工作安排十幾個人不停的維護也不會嫌多。索引技術索引技術對於垂直搜索非常關鍵,一個網頁庫級的搜索引擎必須要支持分佈索引、分層建庫、分佈檢索、靈活的更新、靈活的權值調整、靈活的索引和靈活的升級擴展、高可靠性穩定性冗餘性。還需要支持各種技術的擴展,如偏移量計算等。其它技術略。

      垂直搜索引擎的技術評估應從以下幾點來判斷 1. 全面性 2. 更新性 3. 準確性 4. 功能性鍥形的中和尾:產品應用平臺和對搜索引擎文化理念的理解對於任何一個產品來說,產品的模式是最重要的,技術只是手段、工具、途徑。用戶不會關心你的技術是如何實現的、更不會關心你的技術水平是什麼樣的,只要用戶感覺:這就是我需要的東西,很好用,而且是最好用的。那麼你的產品就OK了。考慮一個產品的模式需要考慮的東西很多,如:用戶需要什麼?需求有多大?能不能完整的實現用戶的需求?需要什麼資源?怎麼做到?競爭分析?差異化?根據自身情況能做到什麼程度?怎麼樣保持領先優勢?能否收到錢?怎麼樣收錢?怎麼樣推廣?需要多少時間?如何保證在時間窗口期內有效完成進度?如何分步分期優先完成用戶最需要的需求?如何建立有效的反饋機制讓我可以瞭解用戶的需求變化和挖掘用戶自己也無法表達的需求?如何進一步改善?分期需要多大的投入?如何降低整體成本和前期成本?如何分期投入?投資回報比?週期?……

  • 1. 確解用戶之意任何應用最難的就是了解用戶的需求,甚至是用戶自己都不知道的需求。建立完善的、快速的用戶意見反饋機制和用戶需求調查機制,所有人都應傾聽用戶的牢騷、建議。不斷的分析、修改。
  • 2. 切返用戶之需滿足用戶的需求,一切紛至沓來。不需要炒作,請把您的資源多多花費在爲用戶提供良好的體驗上來。
  • 3. 不要干擾用戶的意圖,培養用戶的使用習慣和技巧有一個故事是這樣的:還在yahoo使用google的搜索的時候,華爾街的幾個分析師來評估這兩個搜索哪個好用,去掉logo。結果一致評價yahoo的檢索效果好。因爲yahoo是使用的google檢索結果,並且對熱點關鍵詞進行了人工調整。但是一轉身這些分析師回到自己的電腦邊查詢東西,不約而同的打開了google。
  • 4. 細節決定成敗信息不是越多越好,在海量的信息時代,如果不能妥善的整理信息,那就等於沒有信息。每個頁面的每個字,每個像素、圖片的放置都值得花費時間去琢磨。把用戶最需要的放在最顯眼的位置,次需要的放置到更多頁面,不需要的扔掉。
  • 5. 將一件事情做到極致不僅僅要關注80%的用戶的80%的需求,20%的用戶的20%的需求是您成敗關鍵所在。
  • 6. 專注這麼多需要你解決的問題,你還能幹其它事情?對於一個排在第四的業務你是沒有機會的。所以垂直搜索引擎的成功肯定不是具備良好資源的行業門戶、也不會是大搜索的公司,必然是專注於某一行業的搜索引擎公司。因爲只有專注,才能將一件事情做到極致
  • 7. 創新失敗不要緊,但是如果搜索引擎公司沒有創新,那這個搜索引擎公司必然面向的就是死亡。
  • 8. 需要完全掌握主要技術。一個核心業務不可能通過外包手段來解決技術問題。雖然找個大公司外包技術看起來很美麗,很快速,甚至成本比較低。但是這是在毀滅你的將來。因爲這是產品,不是項目。產品是需要不斷完善調整的,用戶的需求也是變化的需要挖掘的,互聯網也是變化的,你外包技術絕對不可能做到靈活、及時滿足各種變化。在和競爭對手競爭的時候您如何保持您的領先優勢?(前文說了,如果被對手保持領先一段時間,那麼你之前的領先優勢就蕩然無存)。這裏還沒有考慮競爭問題,購買其它搜索引擎公司的技術,對方會不會把真正的技術毫不保留的賣給你。再說,賣你你你能搞懂嗎?技術再困難也要自行解決。否則你註定失敗。最好的辦法就是購買核心技術縮短研發週期、成本、風險,再在這個核心技術進行自主研發。這是垂直搜索的技術門檻,看似不高,其實很高。對於技術問題可以迂迴解決,用最簡單的技術滿足用戶最迫切的需求。用戶是不會關心技術實現的。模板方式可以是網頁結構化信息抽取技術的補充。對於可行的應用早期採用模板技術也是不錯的選擇。比如chinabbs就做的很好,用戶的主要需求是要瀏覽到好的帖子,所以加強內容的建設,找高水平的編輯做推薦,而且在界面和易用性上也很不錯。領先qihoo。技術方面他們初期採用的應該是模板自動生成方式採集論壇信息,比qihoo技術水平差,但是這目前不是用戶需求的關鍵,而且 qihoo技術水平層次雖然高但是如果不成熟,體現給用戶的東西未必就強。Chinabbs接下來再解決技術難點,在技術上有提升,那麼他就能持續保持領先優勢了。(但是話又說回來,招聘好的編輯很容易,技術要提升一個層次並且成熟很難,而且很耗費時間,當然用戶習慣和知名度也是需要很長時間培養的)
  • 9. 用最簡單的技術實現用戶最迫切的需要技術重要,但是技術的使用得當更重要,技術是爲用戶體驗服務的。只要能滿足用戶需要,什麼技術都可以,簡單不代表不行,用最簡單的技術實現用戶最迫切的需要。百度的整體技術我認爲離google中文至少有1年以上差距,很多方面差距更大,但是百度的效果比google 好,原因就是將簡單的技術用於實現用戶迫切的需求。舉個我身邊的例子來描述簡單的技術實現需求:我把我們的基於視覺的網頁塊分析的正文抽取技術演示給一好友看,好友看後說:我們也實現了。我大驚,他們不是做搜索的,居然也實現了!他告訴我他們實現的方法後,我再次吃驚,深感簡單的技術也可以很好的解決問題,雖然不完全解決,但是能滿足自己的需求就好。他們的解決方法是:對網頁的 html進行分析,將整段文字中沒有html代碼的文字提取出來,這就是正文。(驚歎!!如此簡單!!注:他們的信息源都是這樣的格式)
  • 10. 根據中國本土互聯網特點,強力的antispam,對信息進行清洗。
  • 11. 很多人誤解垂直搜索就是把相關的行業網頁做一個採集,進行正文抽取,實現搜索,完成信息冊查詢。其實並非如此。如果這樣無法和網頁搜索競爭,網頁搜索很容易就可以將網頁庫按行業分類、按地區分類。 垂直搜索應該是對垂直行業信息進行深度的加工,有效的整合,爲用戶提供網頁搜索無法做到的專業性、功能性,爲用戶提供深一步的服務和完整的體驗,而且不僅僅是提供信息的檢索。垂直搜索是和信息搜索有本質的差異化的。
  • 12.專注用戶體驗的改善,任何的宣傳炒作都是空乏無意義的,搜索引擎的核心在於用戶體驗,你只要改善用戶體驗,比別人強一點點,那麼其它人的炒作和宣傳都在爲你打工
發佈了53 篇原創文章 · 獲贊 4 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章