自然語言理解技術及其應用探討

隨着社會的日益信息化,人們越來越強烈地希望用自然語言同計算機交流。自然語言理解是計算機科學中的一個引人入勝的、富有挑戰性的課題。從計算機科學特別是從人工智能的觀點看,自然語言理解的任務是建立一種計算機模型,這種計算機模型能夠給出象人那樣理解、分析並回答自然語言(即人們日常使用的各種通俗語言)的結果。

現在的計算機的智能還遠遠沒有達到能夠象人一樣理解自然語言的水平,而且在可預見的將來也達不到這樣的水平。因此,關於計算機對自然語言的理解一般是從實用的角度進行評判的。如果計算機實現了人機會話,或機器翻譯,或自動文摘等語言信息處理功能,則認爲計算機具備了自然語言理解的能力。

第一部分 瞭解自然語言理解技術
自然語言處理就是研究如何能讓計算機理解並生成人們日常所使用的(如漢語、英語)語言,使得計算機懂得自然語言的含義,並對人給計算機提出的問題,通過對話的方式,用自然語言進行回答。目的在於建立起一種人與機器之間的密切而友好的關係,使之能進行高度的信息傳遞與認知活動。自然語言理解系統可以用作專家系統、知識工程、情報檢索、辦公室自動化的自然語言人機接口,有很大的實用價值。

自然語言處理研究在電子計算機問世之初就開始了,並於 50年代初開展了機器翻譯試驗。當時的研究方法還不能稱作帶有"智能"。到了60年代喬姆斯基的轉換生成語法得到廣泛的認可,生成語法的核心是短語結構規則,分析句子結構的過程就是利用規則自頂向下或自底向上的句法樹生成過程。

由於認識到生成語法缺少表示語義知識的手段,在70年代隨着認知科學的興盛,研究者又相繼提出了語義網絡、CD理論、格框架等語義表示理論。這些語法和語義理論經過各自的發展,逐漸開始趨於相互結合。到80年代一批新的語法理論脫穎而出,具有代表性的有詞彙功能語法(LFG)、功能合一語法(FUG)和廣義短語結構語法(GPSG) 等。

這些基於規則的分析方法可以稱之爲自然語言處理中的"理性主義"。現有的手段雖然基本上掌握了單個句子的分析技術,但是還很難覆蓋全面的語言現象,特別是對於整個段落或篇章的理解還無從下手。

與"理性主義"相對的是"經驗主義"的研究思路,主要是指針對大規模語料庫的研究。語料庫是大量文本的集合。計算機出現後,語料可以被方便地存貯起來,利用計算機查找也很容易。隨着電子出版物的出現,採集語料也不再成爲困難。最早於60年代編制的Brown和LOB兩個計算機語料庫,分別具有100萬詞次的規模。進入90 年代可以輕易列舉出的語料庫有幾十個之多,象DCI、ECI、ICAME、BNC、LDC、 CLR等,其規模最高達到109數量級。

對語料庫的研究分成3個方面:工具軟件的開發、語料庫的標註、基於語料庫的語言分析方法。採集到以後未經處理的生語料不能直接提供有關語言的各種知識,只有通過詞法、句法、語義等多層次的加工才能使知識獲取成爲可能。加工的方式就是在語料中標註各種記號,標註的內容包括每個詞的詞性、語義項、短語結構、句型和句間關係等。隨着標註程度的加深語料庫逐漸熟化,成爲一個分佈的、統計意義上的知識源。利用這個知識源可以進行許多語言分析工作,如根據從已標註語料中總結出的頻度規律可以給新文本逐詞標註詞性,劃分句子成分等。

語料庫提供的知識是用統計強度表示的,而不是確定性的,隨着規模的擴大,旨在覆蓋全面的語言現象。但是對於語言中基本的確定性的規則仍然用統計強度的大小去判斷,這與人們的常識相違背。這種"經驗主義"研究中的不足要靠"理性主義" 的方法來彌補。兩類方法的融合也正是當前自然語言處理髮展的趨勢。

自然語言理解系統的發展階段
自然語言理解系統的發展可以分爲第一代系統和第二代系統兩個階段。第一代系統建立在對詞類和詞序分析的基礎之上,分析中經常使用統計方法;第二代系統則開始引進語義甚至語用和語境的因素,幾乎完全拋開了統計技術。

第一代自然語言理解系統又可分爲四種類型:

(1)特殊格式系統
早期的自然語言理解系統大多數是特殊格式系統,根據人機對話內容的特點,採用特殊的格式來進行人機對話。1963年,林德賽(R.Lindsay)在美國卡內基技術學院用IPL-V表處理語言設計了SAD-SAM系統,就採用了特殊格式來進行關於親屬關係方面的人機對話,系統內建立了一個關於親屬關係的數據庫,可接收關於親屬關係方面的問題的英語句子提問,用英語作出回答。1968年,波布洛(D.Bobrow)在美國麻省理工學院設計了STUDENT系統,這個系統把高中代數應用題中的英語句子歸納爲一些基本模式,由計算機來理解這些應用題中的英語句子,列出方程求解,並給出答案。六十年代初期,格林(B.Green)在美國林肯實驗室建立了BASEBALL系統,也使用IPL-V表處理語言,系統的數據庫中存貯了關於美國1959年聯邦棒球賽得分記錄的數據,可回答有關棒球賽的一些問題。該系統的句法分析能力較差,輸入句子十分簡單,沒有連接詞,也沒有比較級形式的形容詞和副詞,主要靠一部機器詞典來進行單詞的識別,使用了14個詞類範疇,所有的問題都採用一種特殊的規範表達式回答。

(2)以文本爲基礎的系統
某些研究者不滿意在特殊格式系統中的種種格式限制,因爲就一個專門領域來說,最方便的還是使用不受特殊格式結構限制的系統來進行人機對話,這就出現了以文本爲基礎的系統,1966年西蒙(R.F.Simmons)、布爾格(J.F. Burger)和龍格(R.E. Long)設計的PROTOSYNTHEX-I系統,就是以文本信息的存貯和檢索方式工作的。

(3)有限邏輯系統
有限邏輯系統進一步改進了以文本爲基礎的系統。在這種系統中,自然語言的句子以某種更加形式化的記號來替代,這些記號自成一個有限邏輯系統,可以進行某些推理。1968年,拉菲爾(B.Raphael)在美國麻省理工學院用LI SP語言建立了SIR系統,針對英語提出了24個匹配模式,把輸入的英語句子與這些模式相匹配,從而識別輸入句子的結構,在從存貯知識的數據庫到回答問題的過程中,可以處理人們對話中常用的一些概念,如集合的包含關係、空間關係等等,並可進行簡單邏輯推理,機器並能在對話中進行學習,記住已學過的知識,從事一些初步的智能活動。1965年,斯萊格勒(J.R. Slagle)建立了DEDUCOM系統,可在情報檢索中進行演繹推理。1966年,桑普遜(F.B.Thompson)建立了DEACON系統,通過英語來管理一個虛構的軍用數據庫,設計中使用了環結構和近似英語的概念來進行推理。1968年,凱羅格(C.Kellog)在IBM360/67計算機上,建立了CONVERSE系統,該系統能根據關於美國120個城市的1000個事實的文件來進行推理。

(4)一般演繹系統
一般演繹系統使用某些標準數學符號(如謂詞演算符號)來表達信息。邏輯學家們在定理證明工作上取得的全部成就,就可以用來作爲建立有效的演繹系統的根據,從而能夠把任何一個問題用定理證明的方式表達出來,並實際地演繹出所需要的信息,用自然語言作出回答。一般演繹系統可以表達那些在有限邏輯系統中不容易表達出來的複雜信息,從而進一步提高了自然語言理解系統的能力。1968-1969年,格林和拉菲爾建立的的QA2,QA3系統,採用謂詞演算的方式和格式化的數據(formated data)來進行演繹推理,解答問題,並用英語作出回答,這是一般演繹系統的典型代表。

1970年以來,出現了一定數量的第二代自然語言理解系統,這些系統絕大多數是程序演繹系統,大量地進行語義、語境以至語用的分析。其中比較有名的系統是LUNAR 系統、SHRDLU系統、MARGIE系統、SAM系統、PAM系統。

LUNAR系統是伍茲(W.Woods)於1972年設計的一個自然語言情報檢索系統。這個系統採用形式提問語言(formal query language)來表示所提問的語義,從而對提問的句子作出語義解釋,最後把形式提問語言執行於數據庫,產生出對問題的回答。

SHRDLU系統是維諾格拉德(T.Winograd)於1972年在美國麻省理工學院建立了一個用自然語言指揮機器人動作的系統。該系統把句法分析、語義分析、邏輯推理結合起來,大大地增強了系統在語言分析方面的功能。該系統對話的對象是一個具有簡單的 "手"和"眼"的玩具機器人,它可以操作放在桌子上的具有不同顏色、尺寸和形狀的玩具積木,如立方體、棱錐體、盒子等,機器人能夠根據操作人員的命令把這些積木撿起來,移動它們去搭成新的積木結構,在人機對話過程中,操作人員能獲得他發給機器人的各種視覺反饋,實時地觀察機器人理解語言、執行命令的情況。在電視屏幕上還可以顯示出這個機器人的模擬形象以及它同一個真正的活人在電傳機上自由地用英語對話的生動情景。

MARGIE系統是杉克(R.Schank)於1975年在美國斯袒福人工智能實驗室研製出來的。該系統的目的在於提供一個自然語言理解的直觀模型。系統首先把英語句子轉換爲概念依存表達式,然後根據系統中有關信息進行推理,從概念依存表達式中推演出大量的事實。由於人們在理解句子時,總要牽涉到比句子的外部表達多得多的內容,因此,該系統的推理有16種類型,如原因、效應、說明、功能等等,最後,把推理的結果轉換成英語輸出。

SAM系統是阿貝爾森(R.Abelson)於1975年在美國耶魯大學建立的。這個系統採用"腳本"(script)的辦法來理解自然語言寫的故事。所謂腳本,就是用來描述人們活動(如上飯館、看病)的一種標準化的事件系列。

PAM系統是威林斯基(R.Wilensky)於1978年在美國耶魯大學建立的另一個理解故事的系統。PAM系統也能解釋故事情節,回答問題,進行推論,作出摘要。它除了 "腳本"中的事件序列之外,還提出了"計劃"(plan)作爲理解故事的基礎。所謂" 計劃",就是故事中的人物爲實現其目的所要採取的手段。如果要通過"計劃"來理解故事,就要找出人物的目的以及爲完成這個目的所採取的行動。系統中設有一個"計劃庫"(plan box),存貯着有關各種目的的信息以及各種手段的信息。這樣,在理解故事時,只要求出故事中有關情節與計劃庫中存貯的信息相重合的部分,就可以理解到這個故事的目的是什麼。當把一個一個的故事情節與腳本匹配出現障礙時,由於"計劃庫"中可提供關於一般目的的信息,就不致造成故事理解的失敗。例如,營救一個被暴徒搶走的人,在"營救"這個總目的項下列若干個子目的,包括到達暴徒的巢穴以及殺死暴徒的各種方法,就可以預期下一步的行爲。同時能根據主題來推論目的。例如,輸入故事:"約翰愛瑪麗。瑪麗被暴徒搶走了。"PAM 系統即可預期約翰要採取行動營救瑪麗。故事中雖然沒有這樣的內容, 但是, 根據計劃庫中的"愛情主題",可以推出 "約翰要採取行動營救瑪麗"的情節。

上述的系統都是書面的自然語言理解系統,輸入輸出都是用書面文字。口頭的自然語言理解系統,還牽涉到語音識別、語音合成等複雜的技術,顯然是更加困難的課題,口頭自然語言理解系統的研究近年來也有進展。

我國的發展狀況
我國自然語言理解的研究起步較晚,比國外晚了17年。國外在1963年就建成了早期的自然語言理解系統,而我國直到1980年才建成了兩個漢語自然語言理解模型,都以人機對話的方式來實現。

八十年代中期,在國際新一代計算機激烈競爭的影響下,自然語言理解的研究在國內得到了更多的重視,"自然語言理解和人機接口"列入了新一代計算機的研製規劃,研究單位增多了,研究隊伍也壯大了。

關於HNC理論
HNC理論是"Hierarchical Network of Concepts(概念層次網絡)"的簡稱,是關於自然語言理解處理的一個理論體系。它以概念化、層次化、網絡化的語義表達爲基礎,所以稱它爲概念層次網絡理論。HNC理論把人腦認知結構分爲局部和全局兩類聯想脈絡,認爲對聯想脈絡的表達是語言深層(即語言的語義層面)的根本問題。

HNC理論的中心目標是建立自然語言的表述和處理模式,使計算機能夠模擬人腦的語言感知功能。該理論使自然語言理解獲得了突破性的進展,它所蘊涵的精深豐富的思想對人工智能、語言學、計算機科學和認知科學等都具有重要的理論和應用價值,對中文信息處理和漢語研究尤其具有實際意義。

HNC理論完全擺脫了我國現有的這套語法學的束縛,而從語言的深層入手,以語義表達爲基礎,爲漢語理解開闢了一條新路。HNC理論提出了可供工程實現的完整的自然語言理解的理論框架,它是一個面向整個自然語言理解的強大而完備的語義描述體系,包括語句處理、句羣處理、篇章處理、短時記憶向長時記憶擴展處理、文本自動學習處理。HNC理論的出發點就是運用兩類聯想脈絡來"幫助"計算機理解自然語言。自然語言的詞彙是用來表達概念的,因此,HNC建立的詞彙層面的局部聯想脈絡體現爲一個概念表達體系。概念分爲抽象概念與具體概念。HNC理論的概念表達體系側重於抽象概念的表達。對具體概念採取掛靠近似表達方法。HNC理論認爲應該從多元性表現和內涵兩個方面來描述概念。
它創立了五元組用來表達抽象概念的多元性表現,對抽象概念的內涵採用網絡層次符號來表達。其網絡層次符號包含三大語義網絡:基元概念語義網絡、基本概念語義網絡和邏輯概念語義網絡。HNC的五元組符號和三大語義網絡的層次符號組合起來就可完成對抽象概念的完整表達,從而爲計算機理解自然語言的語義提供了有力的手段。

自然語言理解技術大致可分爲機器翻譯、語義理解及人機會話技術幾個方面。其中機器翻譯(machine translation),又稱機譯(MT),是利用計算機把一種自然語言轉變成另一種自然語言的過程。智能搜索引擎在這一領域的研究將使得用戶可以使用母語搜索非母語的網頁,並以母語瀏覽搜索結果。語義理解通過將語言學的研究成果和計算機技術結合在一起,實現了對詞語在語義層次上的理解。人機會話技術可以爲計算機提供下一代的人機交互接口,實現從文字接口、圖形接口到自然語言接口的革命,同時在家用電器的人性化設計方面有着廣泛的應用前景,其技術內涵主要包括語音識別、語音合成兩個核心部分。

在語義理解的整個過程中,智能分詞技術是最初的一個環節,它將組成語句的核心詞提煉出來供語義分析模塊使用。在分詞的過程中,如何能夠恰當地提供足夠的詞來供分析程序處理,並且過濾掉冗餘的信息,這是後期語義分析的質量和速度的重要前提。尤里卡的智能分詞避免了傳統分詞技術在拆分時產生的歧義組合。從而爲語義理解的處理提供了良好的原始材料。同時,在分詞的過程中,知識庫當中的同義詞會被逐個匹配並同時提交給語義理解模塊使用,這樣處理過的句子,不僅提供了原始的句型,還同時搭載了語句的概念部分。

第二部分 在搜索技術中的應用
衆所周知,隨着互聯網的迅速發展和廣泛普及而導致網上信息爆炸性增長。如何在龐大的互聯網上獲得有價值的信息已成爲網民日益關注的問題。這種以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,併爲用戶提供檢索服務,從而起到信息導航的目的的搜索技術的出現爲網民快速找到所需信息帶來了福音。

但是,2001年,Roper Starch的調查指出,36%的互聯網用戶一個星期花了超過2個小時時間在網上搜索;71%的用戶在使用搜索引擎的時候遇到過麻煩;平均搜索12分鐘以後發現搜索受挫;搜索受挫中46%都是因爲鏈接錯誤;絕大部分(86%)的互聯網用戶感到應當出現更有效的、準確的信息搜索技術。另一項由Keen所做的調查顯示,人們平均每天有四個問題需要從外界獲取答案;其中31%的人使用搜索引擎尋找答案;平均每週花費8.75個小時找尋答案;53.3%時間花在從旁人那裏獲得答案,29%的時間花在親戚朋友身上,24.3%的是時間花在銷售商那裏;網上查找答案的,半數以上都不成功;他們每週將花費14.5美元以上,以獲取正確的信息。

從這些調查數據中不難看出,儘管搜索服務提供者在研發搜索技術方面已經花費了大量的時間和精力,但是目前的搜索引擎仍然存在不少的侷限性,比如信息丟失、返回信息太多、信息無關,這使得網民對於現有的搜索技術仍然不滿,期盼更完美的搜索技術的出現。

由於自然語言理解技術的三方面功能,即機器翻譯、語義理解及人機會話技術能夠賦予搜索技術更具人性化、方便易用的特點。因此,近年來在搜索界得到了廣泛的應用。無論是國內外的搜索引擎,都可以尋覓到語義理解、機器翻譯的蹤跡。

目前在搜索引擎方面主要應用的自然語言理解技術是機器翻譯與語義理解技術。應用了這些技術的搜索引擎我們稱之爲智能搜索引擎。由於它將信息檢索從目前基於關鍵詞層面提高到基於知識(或概念)層面,對知識有一定的理解與處理能力,因而具有信息服務的智能化、人性化特徵。它允許網民採用自然語言進行信息的檢索,爲他們提供更方便、更確切的搜索服務。

與傳統的目錄查詢、關鍵詞查詢模式相比,自然語言查詢的優勢體現在:一是使網絡交流更加人性化;二是使信息查詢變得更加方便、快速和準確。現在,已經有越來越多的搜索引擎宣佈支持自然語言搜索特性。比如國外的搜索引擎Google,,AskJeeves;國內的搜索引擎網易、尤里卡、問一問、21世紀互聯、孫悟空、悠遊等。在這裏我們將重點介紹應用語義理解技術的中文智能搜索引擎。

首先以尤里卡搜索引擎爲例簡要說明一下這種智能搜索的過程。

實現智能搜索的過程主要分三部分:語義理解、知識管理和知識檢索。其中,知識庫是實現智能搜索的基礎和核心。知識庫提供的是語義理解中最終將要提供給用戶的結果,同互聯網的狀況相同,人類的知識結構和容量都在飛速膨脹,所以知識庫也需要有良好的適應能力。在語義理解的整個過程中,智能分詞技術是最初的一個環節,它將組成語句的核心詞提煉出來供語義分析模塊使用。在分詞的過程中,如何能夠恰當地提供足夠的詞來供分析程序處理,並且過濾掉冗餘的信息,這是後期語義分析的質量和速度的重要前提。

加入了知識庫處理技術的智能分詞能夠避免了傳統分詞技術在拆分時產生的歧義組合。從而爲語義理解的處理提供了良好的原始材料。知識檢索可以利用語義分析的結果,對知識庫進行概念級的檢索,對用戶提出問題給出準確度最高、相關度最強的檢索結果。比如:"我想在北京找工作?"。首先進行語義理解,在知識庫中"找工作"屬於求知招聘的範疇,所以分析出用戶想查詢"在北京求職"。然後利用"在北京求職"這個概念查詢知識庫,得出答案。

下面我們再來看看各家宣稱應用了自然語言理解的搜索技術有哪些特點。

問一問(www.weniwen.com)自然語言檢索
問一問是由聞易網科技有限公司(Weniwen Technologies, Inc.)開發的智能搜索引擎。它允許用戶以自然的、整句的方式、以漢語或英語發出查詢請求。易於快速地、以比較經濟的方式擴展到不同的語言。 並可以同時從兩種語言中識別出詞彙。使用自然語言處理(NLP)技術,與傳統的、基於關鍵詞匹配的搜索技術相比,NLP技術可使問一問"理解"請求中的上下文和含義。通過使用NLP技術,問一問可以更準確地檢索出適當的信息。尤其適用於旅遊/休閒、金融以及消費品工業的、正在尋求可增強消費者通過Internet來訪問其信息或進行自動交易的途徑的大企業或門戶。

21ilink(www.21ilink.com)中文智能搜索引擎
世紀訊聯公司開發的基於自然語言處理和人工神經網絡的智能互動技術解決了傳統信息分類中的一些語意交叉詞彙抽象概念、邊緣類別的信息查詢問題實現了模糊查詢。查詢過程突出了個性化、人性化。採用了自然語言的語句單元,還可設定地方語言特色。界面更加友好,能夠滿足不同層次,不同查詢目的客戶的特殊需求。並能引導查詢者快速準確地找到所需要的信息。此項智能搜索技術採用國內獨創的中文問答方式,併兼容了其他傳統的搜索引擎的查詢方式。支持基於概念的信息搜索、行業化、專業化的智能搜索、客戶定製的商務模型,還可完成管理、追蹤、支付等一系列的供應鏈的分析、行業研究等諮詢項目。實現了多方協作,業務拓展的無縫結合。

此項智能搜索系統是將現代智能計算技術、交換技術、網絡技術、數據庫技術融爲一體,而建成的一個面向客戶的,全方位高質量的服務體系。採用了獨有的Smart Hit(智能語義)、和Kengine(知識引擎)。開放性、先進性和超前性均大大領先於同類系統。全套系統擁有完整的智能網絡接入服務功能,支持各網絡平臺的語音文字、數據及圖像,是一種智能多媒體平臺。平臺無中斷,支持寬頻網絡,滿足對數據庫全內容覆蓋要求。支持概念檢索、動態頁面檢索。

孫悟空(search.chinaren.com)搜索引擎
孫悟空搜索引擎是ChinaRen開發並擁有自主版權的產品,能按照用戶的需求,搜索大陸和港澳臺的中文網頁。孫悟空搜索不僅可用傳統的關鍵詞搜索方式,更是在所有中文搜索引擎裏率先採用了提問式搜索,這是ChinaRen研究並實現的一種智能中文處理技術。通過該技術,您可以直接通過提出問題的方式搜索您想要找的內容,這樣不僅更符合我們平時的習慣,而且準確率更高。孫悟空搜索引擎擁有強大的搜索能力,提高搜索的智能性和準確性;智能的評價體系,保證檢索結果高度相關。

悠遊(www.goyoyo.com.cn)中文智能搜索引擎
北京悠遊科技開發有限公司(Beijing Goyoyo)成立於1998年10月,是一個以中文自然語言處理技術爲基礎建立的互聯網信息諮詢及技術服務網站(www.goyoyo.com)。悠遊中文智能搜索引擎通過www.goyoyo.com 提供主要服務。爲了更貼近用戶的語言使用習慣,憑藉先進的自然語言處理技術,悠遊中文智能搜索引擎充分考慮到中文語句的表達結構以及豐富多樣的詞語表達形式,通過"口語化的提問,智能化的結果" ,讓用戶在查詢時只需用口語化的表達方式輸入欲查詢的關鍵詞、自然語句甚至輸入中英文混合語句,選擇要查詢的網站或網頁,單擊"搜索"按紐,悠遊中文智能搜索引擎就會根據您的查詢請求自動分析語句,並且提煉主題,找到滿意的答案,滿足了廣大用戶的各種查詢需求,使您能夠悠閒自得的在網上暢遊。

下面舉例說明應用了語義理解技術的搜索引擎與傳統搜索引擎相比的優勢。

1、更高的搜索的易用性
由於智能搜索引擎具有智能分詞功能,因此使得查詢變得更爲簡單、易於操作。以網易爲例說明:需要搜索"劉德華的最新個人專輯",只需要將整個搜索內容全部輸入到搜索框中就可以找到相關的內容;而在傳統的搜索引擎中則必須遵守搜索的基本數學規則,輸入"劉德華 最新 個人專輯"才能夠找到搜索的內容。顯然在搜索的易用性方面智能搜索引擎具有明顯的優勢。

2、搜索結果的範圍定位準確
由於採用知識(概念)檢索技術,明確和縮小的搜索範圍,減少對無用信息的搜索。以尤里卡爲例說明:要查找"北京的天氣"只需要輸入"北京天氣"就可以找到相關程度甚高的北京的天氣預報,同時還會給出相關的天氣的內容。而在傳統搜索引擎的查詢結果中不但有北京天氣的內容,還會給出所有與北京天氣字樣有關的各種內容,增大了用戶查找搜索結果的難度。

3、搜索結果的智能性
由於智能搜索引擎有綜合知識庫爲背景,使得信息檢索與導航服務更具有智能性。知識庫中的知識有助於解決表達差異的問題。所謂表達差異就是用戶使用不同的詞表達同一概念。而知識庫中關於同義詞的定義正好可以消除這種表達差異帶來的檢索困難。

從上面的示例及比較不難看出運用了先進的自然語言理解技術後,搜索引擎可以識別並回答用戶的問題,使用戶擺脫了傳統搜索引擎基於關鍵字的束縛,指引用戶更有效更快捷地尋找到所需的資料,同時爲用戶提供相關的有參考價值的其他內容。由於這些特點,使得智能搜索技術能夠在互聯網信息檢索的各個方面得到廣泛的應有。它可以爲大型綜合搜索引擎提供後臺支持,使之具有人性化、交互性的特點。它能夠方便的實現垂直搜索引擎的專業類別內搜索。當然它也可以爲信息門戶網站提供方便快捷的站內信息搜索服務。

發佈了3 篇原創文章 · 獲贊 4 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章