想開發搜索的人必讀的文章(www.lucene.com.cn)

1 互聯網搜索


其實搜索的這個核心就是分詞與PageRank算法,擇日和大家討論具體的實現,依靠PR算法,sogou 3.0的搜索結果相當不錯,如果融入人工智能、數據挖掘自然語言理解等最新信息技術成果的搜索引擎,將會給用戶帶來了一種方便、易用、靈活的檢索方式,爲用戶提供的是詳實、準確、直接的信息。


這部分討論幾種特色搜索,概念檢索是以概念爲核心,這種方式一改以關鍵詞核心的搜索模式,藉助概念詞典,通過與用戶交互而獲得用戶要搜索的目的核心的一種搜索方式。提問式檢索是以自然語言形式的問答式檢索。引導式分類檢索和聚類檢索是對結果顯示方式的重新佈置方法,使方便用戶的一種搜索方式。個性化搜索是利用個性化提取技術對不同的用戶獲得不同的結果的一種方法。


1.1 概念檢索


檢索並不是一次完成的,而是通過概念樹進行交互過程中實現的,這種技術的前提是用戶搜索並不是想查某個關鍵詞,而是想查一個概念,或一件事。比如:用戶輸入綠茶,它是想查綠茶電影,通過概念樹的描述結構獲得,綠茶的不同樹結點,相應有趣標的節點信息提示給用戶,以便用戶電擊,用戶的電擊過程其實是與系統交互的過程,通過交互,獲得用戶所需要的信息。這既是所謂的語義檢索。


語義檢索是把信息檢索與人工智能技術、自然語言處理技術相結合的檢索,能夠較好地解決傳統全文檢索中關鍵詞詞間關係模糊、檢準率低的問題。傳統的全文檢索系統在網絡信息檢索中最大的問題就是檢索模式單一,表面化,僅用單一的詞或詞的組合來對網絡式結構的知識進行檢索,缺乏對知識的理解和處理,其結果是返回的匹配網頁數目過多,起不到真正的信息檢索的作用。語義檢索立足於對原文信息進行語義層次上的分析和理解,提取各種概念信息,並由此形成一個知識庫,然後根據對用戶提問的理解來檢索知識庫中相關的信息以提供直接的問答。它提供的不是知識的標識,而是知識的內容。語義檢索與全文檢索的根本差別在於具有一個巨大的知識庫,而知識庫本身就是一個概念的語義空間網絡。建立知識庫首先要構造語義網絡,即利用人工智能、計算語言學等技術從大量網頁中自動提煉概念、計算概念之間聯繫,包括確立概念等級體系、概念之間的語義映射關係及語義關係的推理原則等。檢索系統可利用語義網絡對網頁進行語義標註,並形成索引庫,智能型檢索接口利用語義網絡進行語義推理,主動分析用戶提出的檢索需求,向用戶提出既符合用戶檢索需求又符合索引系統規範的檢索關鍵詞,實現語義檢索和其他智能處理。


因此,建立在語義空間網絡基礎上的語義檢索具有分析和理解自然語言的能力、記憶能力、智能人機接口,可以實現同義詞擴展檢索、語義蘊涵和外延擴展檢索、語義相關擴展檢索,突破了關鍵詞檢索單一模式的固有缺陷,實現概念層次上的詞義擴展,能夠在檢索和獲取信息過程中有針對性地提供有關解釋、說明、範例、輔導、糾錯等動態服務,對用戶檢索實現智能導航,充分保證用戶的實際檢索效率。但是,如何在一個分佈式的、異構的信息環境下實現完全意義上的語義檢索是目前所面臨的最大挑戰。
這項技術提供對用戶輸入詞做一定的運算,獲得關鍵詞的中心意義,使得搜索變聰明瞭。用戶只需在問題框裏輸入關鍵詞,而不用在關鍵詞之間加上一大堆諸如空格、加號、減號之類的東西,搜索引擎就會搞清楚想問的是什麼。


1.2 直接提問式搜索


這是對傳統檢索放出的補充,是中文問答系統的一下應用。
搜索引擎允許用戶可以按照平時說話的方式,通過問話框直接提問。把想問的問題輸入問話框並提交,用戶將會馬上看到用戶需要的內容。這是一種最直接、最快捷的獲取答案的方式。比如,用戶想知道北京今天的天氣情況,就可以在問話框中直接輸入“北京今天天氣怎樣”或“北京今天的天氣好嗎”等問法,然後按回車鍵或點擊“提交”按鈕,用戶會看到有關天氣的內容出現在窗口中,裏面就是用戶要了解的北京的天氣情況。還可以詢問諸如“《紅樓夢》的作者是誰?”,“《大話西遊》的導演是誰?”之類的問題。有的時候,用戶在問題框中輸入問題後得到的是一些相關問題而不是直接的網站,這些相關問題都是搜索引擎精心提煉、歸納的,用戶可以從這些相關問題中找到他想確切表述的問題,還可以發現他感興趣的其它問題;同時,相關問題還可以引導用戶快速適應搜索引擎所提倡的提問方式,即用簡捷的、有目的性的問句(即有意向的問題)來提問,以便其更快速的找到想要的內容。


1.3 引導式分類瀏覽


分類瀏覽是一種更爲傳統的搜索方法,但某些搜索引擎的分類瀏覽有別於傳統的分類瀏覽方式,因爲在瀏覽智能搜索引擎的分類時,用戶看到的不是傳統的網頁內容,而是一個個相關問題,也就是說,如果用戶不想輸入問題,可以瀏覽相關類目,在問題列表中找出用戶想問的問題。用戶只要點擊每個問題前的按鈕,就能看到相應的內容了。(聚類方法見下節)


1.4 聚類搜索


搜索引擎的站點類聚方式和時限的選擇等。站點類聚方式的選擇,用戶在搜索時經常遇到以下情況:一種是一個詞頻繁一個網站的許多網頁中出現,如果搜索這個詞的話,就會出現大量的屬於同一網站的許多不同網頁,如果只關心這個網站,就可以使用“站點類聚”方式,這樣在結果中所有同一個網站的網頁就會合併成一個鍵接;另一種情況是同樣的內容在不同的網站頻繁出現,那麼可以選擇“內容類聚”方式,這樣在搜索結果中就會只顯示出與具體內容相關的一個網頁。也可以選擇“站點類聚+內容類聚”方式,可同時達到上述兩個目標。時限選擇即選擇網頁生成時間,提供“任何時間的網頁”、“‘三個月以內的網頁”、“半年以內的網頁”與“一年以內的網頁”四個選擇。

1.5 個性化搜索


個性化搜索的目的是做到:利用用戶在搜索得10分鐘,留住用戶20分鐘,如何做到這一點呢,首先,要在用戶的搜索行爲發生後對其個性進行分析,獲得其感興趣的信息,同時,在下一個電擊行爲開始時推送適合這個用戶的感興趣信息。獲得用戶行爲的方法在個性化部分論述,推送方案在以後論述。這項技術同樣可以影響結果排序。


1.5.1 個性化廣告投放
見智能廣告投放技術(2.5)


1.5.1.1 個性化查找服務


用戶自動分類:目的是用戶在聊天的過程中,自動被識別出自己興趣愛好相似的同類別,這更增加了同類用戶的親和力。


這部分是面向又交友爲目的人,開發的聊天服務功能產品,目前的聊天查找都是以系統內註冊的信息獲得的,可以通過聊天者的聊天內容的知識表示,獲得用戶的經歷、歷史等信息,最終達到聊天交友查找的目的。這種方式顯然比直接查找來的更加準確。


2 個性化檢索服務


如何面向用戶需求,以最最方便的方式讓用戶獲得所需的信息正是智能應用的任務。對於用戶來說,沒有輸入任何信息而獲得到自己所需要的這當然是最合適的方案。這部分應用即爲個性化檢索。
個性化服務的根本原因就是用戶的情況千差萬別,針對不同的用戶可以進行如下分類:地域、性別、文化程度、行業、職業、上網時間等等。針對不同需求,比如上網目的:獲取信息、學習、學術研究、休閒娛樂、情感需要、交友、獲得各種免費資源、對外通訊、聯絡、炒股、網上購物、商務活動、追崇時尚、趕時髦、好奇等等也可以作不同的處理


2.1 個性化服務內容


個性化問題已經在研究領域裏做了很多工作,這裏將用大量的篇幅論述個性化問題的應用方法。
個性化是使事物具有個性,或者使其個性凸顯。這裏包含了兩層含義,其一,個性是需要經過培養而逐步形成的。這個過程可以稱之爲使個體個性化的一個過程;其二,個體總是具有一定的個性的,讓這種個性得到別人的瞭解、認可,並在一定的空間得以體現、展示,是每個個體都擁有的潛在需求,這個過程也稱之爲個性化的過程。那麼什麼是個性化信息,這個概念可從兩個角度來分析。其一,個性化信息是指反映人類個性特性的一切信息,這些信息包括了這個個體的各種屬性的描述;其二,個性化信息是指由人類個體特性所決定的其對信息的需求的一種信息組合,也就是由人類個性對信息需求的決定關係而產生的一系列對個體有用的信息。個性化信息服務既是一種個性化服務,又是一種信息服務。因此,可根據前面闡述的兩種個性化過程和兩類個性化信息,找到個性化信息服務的定位。個性化信息服務首先應該是能夠滿足用戶的個體信息需求的一種服務,即根據用戶提出的明確要求提供信息服務,或通過對用戶個性、使用習慣的分析而主動地向用戶提供其可能需要的信息服務。其次,個性化信息服務應能夠根據用戶的知識結構、心理傾向、信息需求和行爲方式等來充分激勵用戶需求,促進用戶有效檢索和獲取信息,促進用戶對信息的有效利用並在此基礎上進行知識創新。


2.2 個性化信息服務機制


如前所述,個性化信息服務就是將用戶感興趣的信息主動提供給用戶,要實現這項服務,服務系統必須具備兩方面的能力:一是構建個性化信息模型,即將個性化信息從全局信息空間中分離出來;二是構建用戶信息模型,即跟蹤用戶行爲,學習、記憶用戶興趣,通過描述用戶的興趣來建立個性化用戶模型。此外,還需要有功能強大的網絡信息搜索能力和友好的用戶界面,它們即是構建個性化信息模型和用戶模型的基礎,也是實現個性化信息服務的保障。


2.3 個性化獲取


目前,Internet網上站點從不同角度出發,採用了不同的用戶個體特性採集和個性化信息傳遞方法,主要有以下四種方法。


2.3.1 界面定製法


界面定製個性化信息服務是根據用戶需求對用戶個體所需的系統界面、資源集合、檢索工具與技術、檢索利用服務過程、檢索結果等進行定製。在理想情況下,系統應提供以下定製功能:1方便實用的定製工具;2用戶能對系統提供的定製內容進行選擇、引入或自定義定製內容、組合定製內容、調整定製結構;3查看定製效果;4對定製信息進行修改、存儲和管理;5根據用戶使用選擇傾向和歷史統計自動修改定製信息。從個性化程度講,定製應能充分支持和展示個人的特色,允許用戶積極參與界面的定製,通過填寫表格,用戶指示出自己的需求和選擇,並依次決定所需的內容和對話界面的外觀。一般系統爲用戶提供一個基礎模板,用戶根據需要從中選擇或添加相關內容。用戶定製的數據存放在服務器端數據庫裏,在用戶登錄時系統確定用戶身份,調用相關定製信息,並利用定製信息匹配系統數據或過程,動態生成個性化的系統形態和系統行爲。界面定製至少包括界面結構的定製和界面內容的定製。界面結構指對話界面的總體模塊類別和佈局形式,例如頁面將包括哪些模塊或服務,各模塊的佈局方式(上下或左右或層次),有關圖像、菜單等的位置設置,界面色彩設計等。而界面內容定製主要是對各個信息或服務模塊的具體內容進行定製。這種形式定製的個性化信息服務效率依賴於用戶定製的能力和動機,如用戶不願花費力氣建立複雜、準確的個性化特性,這項服務就不會發揮作用。而且所定製的界而是靜止不動的,不會隨用戶的需求而變化,除非用戶能及時調整和更新。


2.3.2 點擊流分析法(Click Stream Analysis)


點擊流分析法是採集用戶在站點上運動情況的方法,可用於跟蹤記錄訪問過的鏈結點,包括用戶的來源地點、瀏覽站點的路線和最終到達的目標,鏈結分析包括對點擊過的鏈結的觀察、它們在屏幕上的相關位置、用戶在網頁上停留的時間以及點擊過的鏈接間的關係和最終結果(象用戶是否發生了電子交易等)。通過對這些數據的有效分析,不但能夠對網站的建設起到指導作用,增強網站的黏着度,而且也能夠反映出企業在市場、銷售、服務和財務等各個方面的狀況。總之,對這些數據深層次分析能夠使網站改善客戶關係、培養顧客忠誠、增加網上銷售和提高服務質量。在電子商務網站環境中,點擊流分析的已經遠遠超出點擊流的範圍,而成爲企業瞭解經營狀況、瞭解客戶行爲的有效工具。點擊流分析以WEB上的點擊流數據爲基礎,利用OLAP、數據挖掘等技術滿足電子商務企業的所有人員(市場、銷售、工程與管理)的需求,不同的部門有不同的需求,通過對點擊流不同數據的分析來達到不同的目的。


(1)網站點擊分析。網站點擊分析是點擊流分析的一個重要部分,網站點擊主要回答了市場開拓部門所關心的以下問題:1網站的哪個部分或產品吸引了最多的訪問者;2網站的哪個部分導致的直接購買行爲最多;3網站的哪個部分是多餘的或者很少有訪問的;4哪個部分是會話結束最多;5哪個部分進入的購買會話或其他類型的會話最多;通過對這些問題的充分了解,市場開拓部門在進行網上廣告宣傳時就會有比較好的傾向性,也利於有傾向的發展廣告客戶。


(2)點擊狀態分析。訪問者的每次有效點擊都是對網站服務器的一個資源請求,因此點擊狀態等同於請求狀態。請求狀態是指對於一個訪問請求,服務器返回的結果類型。其中,對網站影響最大的請求結果是:資源錯誤,請求失敗。作爲網站來講,實時監測請求的錯誤情況,找出故障原因並及時排除是至關重要的,點擊狀態分析提供實時的網站質量報告,給維護人員詳細的故障信息做指導,評測故障恢復時間和影響範圍。


(3)客戶關係管理(CRM)。客戶關係管理也是點擊流分析的一個重要內容。點擊流分析中的客戶關係管理通常回答了以下幾個方面的問題:1一個新用戶的會話模式(Click Profile)是什麼樣的;2退出客戶的會話模式通常是什麼樣的;3給網站帶來利潤的客戶會話模式是什麼樣的;4取消服務的客戶會話模式是什麼樣子的;5抱怨和投訴客戶的會話模式是什麼樣的;6怎樣可以吸引一個訪問者成爲網站的註冊用戶;通過對這些會話模式的分析,爲市場、銷售等部的CRM提供了數據分析基礎。對客戶羣體進行劃分,找到網站所關心的客戶,如潛在客戶、有價值客戶和保持客戶等。


2.3.3 協調過濾法(Collaborative Filtering)


協調過濾法把一個用戶的偏好與其他用戶的偏好進行比較,建立同偏好羣體的描述。然後假定這個特定用戶與這個同偏好羣體的需求相同,對其需求內容進行推薦。協調過濾法的基本機制是:1登記團體人羣的偏好;2用相似測度法,挑擇偏好類似的子羣組;3對子羣組的偏好加權平均;4利用由此導出的偏好函數(preference function)爲用戶作出推薦。如相似測度法確實挑選了具有相似偏好的羣體,那麼,根據該羣體確定的選項滿足用戶個體的機率就大。協調過濾法較典型的應用是推薦圖書、光盤或電影。也可用於文獻、服務或產品的挑選。


目前協調過濾法存在的主要瓶頸是用戶偏好的收集。爲增加可靠性,系統需要大量的人羣(數千)在數量相對大(數十)的選項中做出選擇。這需要衆多人羣的共同努力。避免這個問題的方法是採集隱含在用戶行爲中的偏好。例如,從網上書店訂購圖書的人們,在他們訂購的過程中含蓄地表達着他們對圖書的偏好。已經購買了與他們相同圖書的顧客則有可能具有與他們相似的圖書偏好。這種方法由Amazon網上書店採用,Amazon書店爲每本書提供了相似人羣購買的有關圖書書目。

2.3.4 Cookies方法


Cookie不再是Internet上的新名詞,但對個性化信息服務仍然有用。Cookie是由站點發送的小數據包並存儲在瀏覽器一側,因此作爲用戶的唯一標識可以在服務器一方(發送Cookie的站點),重複使用。Cookie提供了追蹤用戶的方法。它給用戶加標識,更確切他說是給用戶的瀏覽器文件加標識,當再次訪問發送Cookie的站點時,瀏覽器被當作唯一可以鑑別的實體。在瀏覽器中用作Cookie存儲的用戶信息在以後的訪問中能夠被髮布站點調用,也能夠在重複地訪問中更新。它構成了到存儲在服務器(提供方)方的指定文檔信息的連接。Cookie可用於存儲用戶的其它信息——用戶自己提供(填表格)的資料、最後一次訪問的時間和其它的對話信息。


2.4 用戶分類


用戶分類是實現網站個性化的一項重要工作,我們可以根據需要進行多種分類,可以根據訪問內容分出用戶的各類興趣愛好:如喜好足球的、喜好電腦技術的、喜好休閒娛樂的、喜好交友的:根據一般的上網時刻、訪問量、上網的總時間、上網總次數等把用戶分爲一般網友、中級網友、高級網友等:甚至還可以根據訪問內容確定用戶大致所在的階層,如白領、藍領等。從以往相同喜好的用戶的訪問內容、訪問順序中進行學習,經過綜合、篩選後將其推薦給當前用戶。這些推薦信息與用戶興趣間的相關度很高,能很大程度上滿足用戶的需求。


2.4.1 通過日誌獲取興趣


客戶瀏覽信息被Web服務器自動收集,並保存在訪問日誌、引用日誌和代理日誌中有效地對這些Web日誌進行定量分析,揭示用戶興趣路徑等,不但可以爲優化Web站點的拓撲結構提供參考,而且還可以爲企業制定更有效的市場營銷策略提供依據,使其及時改進決策,獲得更大的競爭優勢
目前,Web日誌的挖掘研究主要集中在用戶瀏覽模式的獲取上,算法有最大向前序列法、參考長度法和樹形拓撲結構法等它們先將日誌中的用戶瀏覽歷史記錄轉換成一個瀏覽子序列集:最大向前序列法根據用戶折返的特性形成若干瀏覽子序列;參考長度法根據用戶在網頁上停留的時間形成若干個瀏覽子序列;樹形拓撲結構法則把整個日誌當作瀏覽子序列然後利用關聯規則法對瀏覽子序列進行挖掘找出頻繁訪問路徑以上算法單純地考慮了瀏覽頻度,簡單地認爲用戶的瀏覽頻度就反應了用戶的訪問興趣,這很不精確網頁瀏覽頻度的影響因素有很多,其中的頁面放置位置和其它頁面對該頁面的鏈接都起着非常重要的作用所以有必要提出一種可正確挖掘用戶瀏覽興趣路徑的算法本文就是從提出的支持 偏愛度的概念出發,給出了一種Web站點訪問的矩陣表示模型,在此基礎上挖掘用戶瀏覽偏愛路徑,然後進行了實驗,提出需要進一步研究的問題。


2.4.2 個性化聚類


作爲一種重要的知識發現方法,數據聚類主要用於發現屬性間有用的模式和(或)關聯(統稱爲知識),對於大規模數據集的探測性分析有着重要的作用。由於操作的對象是海量數據,所以其效率也就顯得特別的重要。爲此,近年來除了對聚類算法本身尋求改進以外,還對算法的並行化進行了大量的工作,以充分利用了當今計算機的綜合計算能力,縮短聚類過程所需的時間。而且數據聚類的相應技術已經在圖象處理,模式識別,信息融合等各個領域裏都有重要的應用。發現知識的效率固然重要,但是發現後所得到的知識的“質量”也同樣不可忽視。一般來說,一個知識發現系統是面向多用戶的(或者說是面向多應用的)。如果一次聚類所得到的知識多於、或少於、甚至根本不是當前用戶所需要的知識,那麼這些知識對當前用戶而言就是存在所謂的質量問題。例如,對於一羣學生,教學工作者可能需要把他們分爲一年級學生、二年級學生等;而對於同一羣學生,醫務工作者則可能把他們分爲甲肝患者、乙肝患者等。顯然,如果一個教學工作者去操作知識發現系統的時候,系統按患病情況進行聚類時,其結果是不能接受的。所以理想的情況是,不但要高效地產生所需要的知識,而且產生的知識要能夠滿足用戶的實際需要,不存在與用戶需要無關和多餘的知識。當然,這些知識是在反映屬性間內在客觀聯繫的前提下滿足用戶需要的一種知識。該文通過聚類的方法獲得僅滿足用戶需要的知識(不存在無關的知識)的過程,稱爲個性化聚類,相應的知識就稱爲個性化知識。


在當今信息的海洋中,研究個性化聚類,發現個性化知識,對於減少用戶的工作量、提高工作效率和正確率、以及進一步推動信息處理系統向智能化和實用化方向發展有着極爲重要的現實意義。


2.5 信息過濾


信息過濾是個大的概念,這裏專門來討論這個問題。
信息過濾技術基本分爲兩類:一種是基於內容的過濾(Content-based Filtering);另一種是合作過濾(Collaborative Filtering)。在基於內容過濾模式中,每個用戶假定是相互獨立操作的。因此,過濾的結果只取決於用戶信息需求模型(即用戶模板Profiles)與信息源的匹配程度。在相關反饋的基礎上,系統輔助維護用戶模板。基於內容過濾的系統如Personal Web Personalizer等,它們利用資源與用戶興趣的相似性來過濾信息。它的優點是簡單、有效,缺點是難以區分資源內容的品質和風格,且不能爲用戶發現新的感興趣的信息。合作過濾的出發點在於任何人的興趣不是孤立的,而是處於某個羣體中。根據相同或相近興趣的用戶對相應信息做出的評價,向其它用戶進行推薦。由於不依賴於內容,這種模式不僅適用於文本格式,也可以廣泛應用於非文本介質的資源,如視頻、音頻等。協作過濾系統如:Web Watcher,Grou-pLens,Firefly,SELECT,LileMinds和Citeseer等,它們利用用戶之間的相似性來過濾信息。基於合作過濾系統的優點是能爲用戶發現新的感興趣的信息。但是,它也存在兩個致命的缺點:其一是稀疏性問題,即在系統使用初期,由於系統資源還未獲得足夠多的評價,系統很難利用這些評價來發現相似的用戶。另一缺點是系統可擴展性,即隨着系統用戶和信息資源的增多,系統的性能會下降。爲了綜合基本內容和合作過濾兩種方式的優點,本文擬在數字圖書館中採用基於混合模式的信息過濾(Hybrid Filtering)模型。它建立面向個人的用戶模板和麪向合作的公共模板,抽取信息特徵,作爲可能的特徵項,便於用戶動態地修改模板;利用其它用戶對文檔的評價以及用戶模板與文檔的相似度來預測用戶的接受程度,另外還考慮到推薦者的權威性和與用戶興趣的一致性。結合這兩種過濾技術可以克服各自的一些缺點,從而提高信息過濾的性能。


3 熱門新詞提取


這是利用自然語言未登錄詞識別技術,獲取網上最新的動態,同時,將獲得的新詞進行分類標註的新技術。這項功能有許多應用,可以很好的有用戶的興趣,結合用戶的習慣及個性化,甚至可以改變用戶的上網模式,使得用戶具有相應的依賴性。

 
未登錄詞(unlisted/unknown words)是指詞表未收因而機器不認識的詞。詞表應當有一定規模(一般是幾萬詞);極而言之,如果詞表爲空,文本中的每一個詞都成了未登錄詞。另一方面,未登錄詞本質上是不可窮盡登錄的:人名、地名幾乎可以看成是無限的,新詞也在不斷地產生。


缺乏識別未登錄詞的能力,計算機就難以自動處理大規模語料。目前處理百萬詞級的語料時,通常的做法是先用機器分詞,然後進行人工校對。但是人工校對費時費力,缺乏一致性,即使校對多次也難以保證沒有錯誤。要處理幾千萬、幾億詞語料,用這種辦法是肯定行不通的,因此亟需開發一種免校對的自動分詞系統。所謂“免校對”,不是說正確率要達到百分之百,而是指切分錯誤極少,至少能跟人工校對後的正確率相當。要做到這一點,就必須比較徹底地解決未登錄詞問題。


未登錄詞可以分爲專名和非專名兩大類。專名包括人名、地名等,非專名包括新詞、簡稱、方言詞語、文言詞語、行業用詞、港臺用詞等。目前關於未登錄詞識別的研究,集中在專名上,非專名的未登錄詞識別問題尚未引起足夠的重視。如前面所舉的例子,在真實文本中,非專名的未登錄詞佔相當大的比例。詞組式專名中含普通詞語,如“蒙古人民共和國”“北京工業大學”。在自動分詞中,能把其中的專名未登錄詞“蒙古”“北京”識別出來就可以了;至於組合處理,有時可能有困難。如,“美國大學”不是一個詞組式專名,而“韓國大學”是一個詞組式專名(例子引自張小衡,1997)。品牌名常常用普通詞語,如“長虹牌彩電”“聯想電腦”。對於這些品牌名,按照上面的建議(不作組合處理),就不存在未登錄詞識別問題。但“康佳彩電”“富士牌彩卷”之類的品牌名,應該把其中的專名識別出來。如果把這些詞組都整個兒看成未登錄詞,顯然會加重自動分詞的困難。


3.1 新詞的自動獲取


第一,先用最大概率法進行第一趟分詞,識別已登錄的多字詞;第二,在“分詞碎片”中尋找未登錄詞:分詞碎片中任意字串皆爲候選未登錄詞,利用局部統計和單字概率來計算其概率;但碎片中任意單字亦爲候選單字詞,故應同時計算每個單字的成詞概率,與候選未登錄詞形成競爭,依概率來決定每個單字究竟是詞還是未登錄詞的一部分,對分詞碎片進行第二趟分詞。最大概率法分詞給出了最大概率法分詞的算法,其基本思路是從各種可能的詞串中,找出各詞概率乘積最大的詞串。其實,是自動分詞的統計模型。
計算單字概率爲了在分詞碎片中識別未登錄詞,計算單字的以下幾種概率:(1)單字概率Pz(c),即每個單字在語料中的出現概率。Pz(c)應從極大規模語料庫中統計得到,因爲規模不夠大時,許多非常用字難得出現,而未登錄詞(特別是專名)中往往包含非常用字。(2)單字詞概率Pw(c)。語料規模當然也是越大越好,但實際上很難得到極大規模的、校對精確的分詞語料。關鍵是如何計算Pw(c)。用單字詞出現次數除以分詞語料的總詞次,得到的是該單字詞的出現概率;用單字詞的出現次數除以該單字的出現次數,得到的是該單字的相對成詞概率。8孤立地考慮某單字是否成詞的時候,應該用它的相對成詞概率;但如果在上下文中考慮它是否成詞時,應該用它的單詞出現概率與相對成詞概率的乘積。(3)單字非詞概率Pf(c)=Pz(c)-Pw(c)分詞碎片中的候選單字詞連續出現時,用其轉移概率:λ1Pw(ci)+λ2Pw(ci-1ci),其中λ1+λ2=1,具體值可通過試驗得到。這是強調慎重識別單字詞。最大匹配法和最大概率法爲了保證任意漢字串能在有限步驟內切分完畢,都是把詞表中查不到的單字權且當作一個詞。這是不能發現和識別未登錄詞的根本原因。未登錄詞是無限的,而單字是有限的,單字詞更少。把單字和單字詞作爲識別未登錄詞的關鍵,就是想以有限來駕馭無限。當然,也不能說,只要把已登錄的多字詞和單字詞都識別出來了,其餘的連續單字都當作未登錄詞。事情不是這麼簡單,因爲在分詞碎片中,一個單字是不是詞,也有賴於它周圍的單字是不是待識別的未登錄詞的一部分。


3.2 新詞的推送技術


通過爲登陸處的識別,可以定期獲得新詞,這樣就構成了新詞詞庫。
新詞仍讓有個性化的問題,也就是說,對以某些用戶來說,成爲新詞的,對於另一些用戶來說,可能不是新詞,這樣。新詞的概念有所變化,即個性化新詞,新詞,對於用戶來說是新的興趣點,對於新詞的個性化推送不僅可以獲得新的點擊效益,對於用戶來說,該功能也具有了新的市場,用戶在使用過程中獲益後,會對此能能產生依賴性的認可。


4 智能廣告投放技術


4.1 智能廣告投放的內涵


自從萬維網WWW出現以來,Internet已經成爲人們獲取信息重要媒介,據統計中國網民人數已經達到上千萬,這麼多網民意味着巨大的潛在的廣告市場許多商家將目光從傳統的廣告模式——電視、電臺、報紙轉向網絡廣告網站如何設置、播放什麼樣式的網絡廣告才能吸引網民而不是造成網民的反感已成爲網站設計者需要考慮的問題傳統網站常採用兩願營銷的網絡廣告模式,這種模式在實際中存在安全性問題及隨着時間的變化,使用者的興趣與偏好可能會隨着改變的問題基於上述的原因,爲了能更準確地掌握使用者信息以提供使用者個性化的廣告,本文提出一種新的網絡廣告模式根據用戶的瀏覽行爲和所瀏覽網頁的內容,分析出用戶的愛好與興趣有針對地對個人播放個性化廣告也既是每個用戶看到的廣告是根據其愛好不同而動態的改變,並不是現在常見的網站所呈現的固定不變的廣告在此模式中,主要使用近來興起的網頁挖掘(WEB挖掘)技術獲取用戶愛好和興趣網站使用者在網絡上瀏覽行爲存成日誌文件,可利用網頁挖掘中的網頁使用挖掘方法,對於使用者瀏覽網頁的行爲找出其瀏覽網頁的偏好,而後利用所得之結果,獲取與使用者瀏覽網頁特性有關聯的網頁其次,未來的網頁將具有擴展標記語言中可自我描述與可自行定義標記的特性,對於這些網頁內容可利用擴展標記語言挖掘方法進行挖掘,找出使用者對網頁內容瀏覽的偏好與特性如此既能動態而且隨時追蹤使用者特性,結合廣告數據庫,建立一個個性化(個人化)的廣告播放機制。


4.2 以網頁挖掘爲基礎的個性化網絡廣告模式


從營銷使用者必須主動提供信息,並且維護自己的偏好信息,使得當時間一長或使用者興趣改變的時候,可能再也無法確切的掌握使用者的偏好,因此,可以利用網頁挖掘,且能隨時動態地更新使用者資料的個性化網絡廣告模式:(1)日誌文件:此日誌文件爲一瀏覽的日誌文件,它記錄的內容包括記錄使用者的瀏覽路徑、時間、使用者IP地址、瀏覽器等使用者相關訊息(2)使用者信息數據庫:記錄使用者的基本資料與經過挖掘之後的使用者特性信息(3)廣告數據庫:儲存廣告主託播的各式廣告,幷包括廣告的類別等信息(4)經預處理後的資料:將日誌文件透過預處理的程序,進行過濾與篩選,以去掉不必要或錯誤的信息,得到想要的資料(5)協商代理程序:爲一全自動化的代理程序,負責自動與廣告主依廣告的價格、時段、版面配置、類型、營銷目標進行協調廣告播放、並負責傳送廣告效果回報給廣告主(6)廣告媒合系統:獲取使用者數據庫並對廣告數據庫進行媒合,而後呈現經媒合之後的個性化廣告(7)網頁使用挖掘系統:讀取瀏覽日誌文件,進行網頁使用挖掘,藉以瞭解使用者瀏覽的習慣來找出其瀏覽的特性,例如:網頁瀏覽的頻率高低,亦即使用者對各個網頁的瀏覽頻率,分析之後,並加以記錄,以作爲網頁內容挖掘的基礎(8)網頁內容挖掘系統:在這個系統之中最主要的工作就是以網頁挖掘的技術,對XML文件中的標記來做挖掘,並將挖掘之後的所得的資料存入使用者的數據庫,以作爲將來播放廣告的依據


5 自然語言處理的基礎資源


這裏簡單介紹一下實現以上技術所需要的自然語言處理的基礎資源-綜合型語言知識庫。
語言知識庫的規模和質量決定了自然語言處理系統的成敗。經過18年的努力,北京大學計算語言學研究所已經積累了一系列頗具規模、質量上乘的語言數據資源:現代漢語語法信息詞典,大規模基本標註語料庫,現代漢語語義詞典,中文概念詞典,不同單位對齊的雙語語料庫,多個專業領域的術語庫,現代漢語短語結構規則庫,中國古代詩詞語料庫等等。本項研究將把這些語言數據資源集成爲一個綜合型的語言知識庫。集成不同的語言數據資源時,必須克服它們之間的"縫隙"。規劃中的綜合型語言知識庫除了有統一的友好的使用界面和方便的應用程序接口外,還將提供支持知識挖掘的工具軟件,促使現有的語言數據資源從初級產品形式向深加工產品形式不斷髮展;提供多種形式的知識傳播和信息服務機制,讓綜合型語言知識庫爲語言信息處理研究、語言學本體研究和語言教學提供全方位的、多層次的支持。綜合型語言知識庫將在應用中擴充規模,更新內容,提高質量,永葆活力。

 

本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/chengg0769/archive/2007/07/27/1710979.aspx

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章