搜索引擎創新論

搜索引擎創新論<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

 

整理:Ackarlix

挨踢網【中文IT技術社區】http://www.aitic.net

 

前段時間作者寫過一篇《論搜索引擎的創新》(以下簡稱《創新》),現在看來,文中的一些觀點尚未過時,所以筆者打算進一步深化《創新》中的思想,當然,並不是文中所有內容現在仍堅持不變。筆者認爲,理論應該與時俱進,這是理論務必要保持的一種可貴品質。

 

現實的創新,是搜索引擎創新的現實。筆者曾把搜索引擎的創新劃分爲兩種類型:一種稱之爲“模式創新”,這種創新體現了搜索引擎發展的質的飛躍。另一種創新是“形式創新”,這種創新是量的變化或積累,而不是質的改變。目前,大公司推出的搜索在創新類型上,基本都停留在“形式創新”階段。比如,googlesearchmash最近的變化,以及一些搜索引擎頁面顏色的變化(最近的,如中搜和BBMAO)。瞭解馬克思主義哲學的人,會發現我以上所劃分的類型是運用唯物辯證法的質量變原理作爲方法論指導的。

 

我在研究搜索引擎創新的過程中遇到了一些問題和一系列疑難,其中以下問題最爲典型:

1.錯誤地高估了搜索公司的創新能力(搜索公司有資金和技術上的能力,但因爲非技術問題,影響了創新)。

2.搜索公司內部和外部所處的社會關係影響甚至能決定創新的方向和創新的速度。

3.讓搜索引擎更加智能化或人性化需要突破語言上的技術障礙。

 

在日常生活世界,人們之所以用話語交流而非關鍵詞(單個詞),是因爲單個或幾個詞語表達的意義不完整,而將詞語組成句子,就可表達出完整的意義、讓說話者的意圖更加明確,這是詞語本身內在規定(性質)上的限制,所以在搜索的過程中,使用關鍵詞時,由於詞語表達的不完整和不明確的意圖,無論是提問的深度還是搜索的深度都會受到嚴重的限制。自然語言理解是一項發展中的技術,筆者認爲商業公司若能與高校聯手合作,利用對方的優勢,去開發這項技術一定會把研究推向一個新的高度。從當下的現實出發,我以爲搜索引擎在功能的完善上,有如下工作需要做

 

1.增加按時間排序的功能。這項功能需要包括正序和倒序,正序遇到的問題是:搜索結果的相關性降低了,但能保證時間上的最近性。倒序的特點是:由於網絡上信息重複率高,藉由這個功能我們能知道眼前的信息最早出現在哪個時間段。我以爲倒序也是有一定實用性的。

 

 

2.增加同義詞搜索功能。我以爲同義詞不應只限於字典裏的同義詞,應該儘量和日常語言接軌,否則會削弱語言本身的豐富性。比如頭皮屑的同義詞是頭屑頭皮糠疹也是頭皮屑的同義詞,再如洗髮水的同義詞是洗髮露洗髮精洗髮劑等。玩過現在流行的網遊跑跑卡丁車的人會知道,水泡水炸彈的同義詞。由此我們發現,以上的詞彙都是字典裏沒有的,所以在建立同義詞詞庫時要考慮到語言的豐富性問題。由於語言本身的模糊性,人類的語言才能夠特別豐富。能指本身是開放性的,從一開始能指就有潛在的完整性,而所指主要與經驗積累有關。恐怕,同義詞詞庫的完善和完全是處於能指與所指之間的關係中的。當前特別突顯的問題是,假如用戶使用的關鍵詞不恰當,會導致找不到所需的信息,即使需要的信息是存在的!!

 

3.在社區化產品方面應繼續增強用戶之間的互動,在社區的內容上,增加一些知識性的內容。長期泛娛樂化,會摧毀人的審美能力。長期處於娛樂內容的包圍中,恐怕人們真的會幸福地變成傻瓜。

 

4.人工智能。社會化搜索原本是與個性化搜索相對應的概念,但現在不知爲什麼,竟然與人工智能相對,這恐怕是概念上的錯位。因爲人工智能與社會化搜索根本不是同一層面上的。順便提一下,據說AISOU已經具備人工智能。

 

本文的重點在同義詞搜索上,同義詞在搜索時只是理論上的狀態,在實際搜索中,人們最常接觸和使用的是短語。我們爲什麼不能像建立同義詞詞庫那樣,也建立“同義短語”語庫呢?同義詞詞庫也好,同義短語語庫也好,和中文分詞一樣,是基礎性的、人工性的、積累性的。

 

有的時候,客觀趨勢是以總裁、經理們的主觀祕密決定表現出來的。因爲他們掌管着強大的媒體部門,相比之下,媒體對其有一定的依賴性。其實我們的總裁老爺們不相信任何客觀發展趨勢,只有用戶才接受毋庸置疑的搜索引擎發展趨勢。也可以說,用戶對於未來搜索引擎的發展趨勢除了相信之外,無能爲力。

 

信息哲學也好、人工智能哲學也好,本質上是哲學而不是技術。由於學科之間的壁壘和分類,筆者深感能力有限,有時候也不得不產生懷疑,努力是不是真的有價值。希望在將來,各個學科之間的結合能更加緊密。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章