如何才能做好一個垂直搜索引擎

本文先引用幾句話: 

“確解用戶之意,切返用戶之需。”

“門戶網站都想着是怎樣省錢,而不是怎樣花錢來買技術。”

“搜索引擎不是人人都能做的領域,進入的門檻比較高。”

“只是優秀還不夠,最好的方式是將一件事情做到極致。”(google十大真理)

“做搜索引擎需要專注” “對於一項排到第四的業務,門戶很難做到專注。”

“用戶無法描述道他要找什麼,除非讓他看到想找的東西。”

“所謂楔形,其實就是個倒三角,倒三角的尖端部分代表搜索技術,中部是基於技術的產品應用平臺,最上端是對整個搜索引擎用戶人羣文化的認識和理解,以及現代公司競爭最關鍵也最捉摸不定的所謂品牌。”

“楔形”蘊涵的另一個意義是:楔子要打到牆裏,尖端是否銳利很重要,但楔子的破壞性有多強,究竟能在牆面擠壓出多大的空間,其中端、後端的沉穩與厚重纔是關鍵。

搜 索引擎的技術和理念都是需要時間和經驗的積累的,更是需要長期不斷的完善進步的,絕對不要認爲可以一蹴而就,要達到一個相對成熟領先的搜索引擎從開始到領 先的週期一般需要是四年。着急不得。原因是因爲搜索引擎太複雜,而且“用戶無法描述他要找什麼,除非讓他看到想找的東西。” 一切都需要摸索,嘗試,問題 需要一個一個解決,用戶的需要得一點點的挖掘。

搜索引擎是一個產品,給用戶提供服務的產品,需要長期的不斷的改進升級調整才能持續不 斷的提用戶體驗,需要滿足用戶不斷增長並且變化的需求、需要不斷適應網絡的變化。這是因爲網絡環境是不斷變化的、網民的需求也是不斷變化的。千萬不要把搜 索當成項目來做,做完了撂那讓用戶去用那你肯定沒戲。在搜索引擎領域是講體驗的、新的引擎如果用戶體驗一旦整體上有領先一年以上的差距並且持續2年,那前 期的領先者的優勢就蕩然無存,因爲搜索引擎的用戶轉移成本相對而言是比較低的而且口碑是最佳的傳播方式。如果一個搜索引擎不能持續不斷的技術創新理念創 新,那對於這個搜索引擎來說就等於死亡。我們一般形容搜索引擎的領先是以時間計算的。比如:中搜離百度整體差距×年,百度離google的整體差距× 年,……只要你能在用戶體驗上保持一年的領先優勢持續2年,不需要炒作,一切紛至沓來。在用戶體驗面前,任何的炒作都顯得很渺小。

作垂直搜索引擎,麻雀雖小,但是五臟俱全。無論理念文化、產品管理、應用、技術都和搜索引擎的楔形理論沒有什麼區別。所以要做好一垂直搜索必須解決這幾個方面。

楔形的尖:垂直搜索技術。 


垂 直搜索技術主要分爲兩個層次:模板級和網頁庫級。模板級是針對網頁進行模板設定或者自動生成模板的方式抽取數據,對網頁的採集也是針對性的採集,適合規模 比較小、信息源少且穩定的需求,優點是快速實施、成本低、靈活性強,缺點是後期維護成本高,信息源和信息量小。網頁庫級就是在信息源數量上、數據容量上檢 索容量上、穩定性可*性上都是網頁庫搜索引擎級別的要求,和模板方式最大的區別是對具體網頁不依賴,可針對任意正常的網頁進信息採集信息抽取……。這就導 致這種方式數據容量上和模板方式有質的區別,但是其靈活性差、成本高。當然模板方式和網頁庫級的方式不是對立的,這兩者對於垂直搜索引擎來說是相互補充 的,因爲技術只是手段,目的是切反用戶之需。本文談及的技術主要是指網頁庫級別垂直搜索引擎技術。

搜索引擎的確是一項對技術要求比較高的應用,幾年前相關的人才也比較少。現在搜索技術人才多了,相關的技術和技術的應用得相對以前而言更加成熟,但是競爭也更加激烈了。垂直搜索大致需要以下技術:

1. 信息採集技術

2. 網頁信息抽取技術

3. 信息的處理技術,包括:重複識別、重複識別、聚類、比較、分析、語料分析等

4. 語意相關性分析

5. 分詞

6. 索引

信 息採集技術,垂直搜索引擎spider和網頁庫的spider相比應該是更加專業,可定製化。可定向性的採集和垂直搜索範圍相關的網頁忽略不相關的網頁和 不必要的網頁,選擇內容相關的以及適合做進一步處理的網頁深度優先採集、對頁面有選擇的調整更新頻率……,採集可通過人工設定網址和網頁分析url方式共 同進行。垂直搜索對信息的更新有着特別的要求,根據這些特點可以從以下幾點考慮1.信息源的穩定性(不能讓信息源網站感覺到spider的壓力)2.抓取 的成本問題3.對用戶體驗改善程度。根據以上幾點制定一種比較好的策略,要做到恰到好處。策略上可以評估網站/網頁更新的係數、網站/網頁的重要係數、用 戶點擊係數(或曝光係數)、網站穩定係數……,根據這些係數來確定對這些網站/網頁更新的頻率。再由於新信息和更新了的信息list頁面前面或者首頁,所 以對網頁進行很好的分級可以以低成本很好的解決更新問題,係數比較低的網頁一月update一次,稍微高點的一週update一次、中等的幾天到一天一 次、高的幾小時到幾分鐘一次。類似搜索引擎的大庫、周庫、日庫,小時庫……

基於視覺網頁塊分析技術,模擬IE瀏覽器的顯示方式,對網頁進行解析。根據人類視覺原理,把網頁解析處理的結果,進行分塊,再根據需要,對這些塊進行處理,如:採集定向、介紹抽取和一些必要的內容的抽取正文抽取……

結 構化信息抽取技術,將網頁中的非結構化數據按照一定的需求抽取成結構化數據。有兩種方式,簡單的就是模板方式,另外就是對網頁不依賴web結構化信息抽取 方式,這兩種方式可以互取長處,以最簡單最有效的辦法滿足需求。垂直搜索引擎和通用搜索引擎最大的區別就是對網頁信息結構化抽取後再結構化數據進行深度的 處理,提供專業的搜索服務。所以web結構化信息抽取的技術水平是決定垂直搜索引擎質量的重要技術指標。其實web結構化信息抽取在百度、google早 已經廣泛應用了,如:MP3、圖片搜索、google的本地搜索就是從網頁庫抽取出企業信息,添加到其地圖搜索中的,google通過這種技術正在顛覆做 內容的方式。同樣的技術應用還在qihoo、sogou購物、shopping等各種應用中體現。

簡單的語法分析,簡單的語法分析在搜索引擎中非常重要,可以通過簡單的語法分析來改善數據的質量,低成本的獲得某類信息,改善排序,尋找需要的內容……

信息處理技術,信息處理包括的範圍比較廣,主要包括去重、聚類、分析……,這根據需要相關的技術就非常多。

數據挖掘,找出您的信息的關聯性對於垂直搜索來說非常重要,有效,可以在這些相關性上爲用戶提供更細緻的服務。

分詞技術,面向搜索的分詞技術,建立和您的行業相關的詞庫。注意這是面向搜索的分詞,不是面向識別和準確的分詞。就這個工作安排十幾個人不停的維護也不會嫌多。

索引技術,索引技術對於垂直搜索非常關鍵,一個網頁庫級的搜索引擎必須要支持分佈索引、分層建庫、分佈檢索、靈活的更新、靈活的權值調整、靈活的索引和靈活的升級擴展、高可*性穩定性冗餘性。還需要支持各種技術的擴展,如偏移量計算等。

其它技術,略。

垂直搜索引擎的技術評估應從以下幾點來判斷

1. 全面性

2. 更新性

3. 準確性

4. 功能性 

轉自:http://www.xd-tech.com.cn/blog/default.asp
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章