NLPIR漢語分詞爲自然語言處理提供新方向

  隨着計算機網絡的飛速普及,人們已經進入了信息時代。在這個信息社會裏,信息的重要性與日俱增,無論是個人,企業,乃至政府都需要獲取大量有用的信息。誰掌握了信息,誰就能在競爭中處於有利位置。在這種環境下,搜索引擎技術逐漸成爲技術人員的開發熱點,而其中最爲重要的技術就是分詞技術。
  中文分詞,顧名思義,就是藉助計算機自動給中文斷句,使其能夠正確表達所要表達的意思。中文不同於西文,沒有空格這個分隔符,同時在中文中充滿了大量的同義詞,相近詞,如何給中文斷句是個非常複雜的問題,即使是手工操作也會出現問題。中文分詞是信息提取、信息檢索、機器翻譯、文本分類、自動文摘、語音識別、文本語音轉換、自然語言理解等中文信息處理領域的基礎研究課題。對於中文分詞的研究對於這些方面的發展有着至關重要的作用。可以這樣說,只要是與中文理解相關的領域,都是需要用到中文分詞技術的。因此對於中文分詞技術的研究,對於我國計算機的發展有着至關重要的作用。
  北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、自然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。
  NLPIR大數據語義智能分析平臺十三大功能:
  精準採集:對境內外互聯網海量信息實時精準採集,有主題採集(按照信息需求的主題採集)與站點採集兩種模式(給定網址列表的站內定點採集功能)。
  文檔轉化:對doc、excel、pdf與ppt等多種主流文檔格式,進行文本信息轉化,效率達到大數據處理的要求。
  新詞發現:從文本中挖掘出新詞、新概念,用戶可以用於專業詞典的編撰,還可以進一步編輯標註,導入分詞詞典中,提高分詞系統的準確度,並適應新的語言變化。
  批量分詞:對原始語料進行分詞,自動識別人名地名機構名等未登錄詞,新詞標註以及詞性標註。並可在分析過程中,導入用戶定義的詞典。
  語言統計:針對切分標註結果,系統可以自動地進行一元詞頻統計、二元詞語轉移概率統計。針對常用的術語,會自動給出相應的英文解釋。
  文本聚類:能夠從大規模數據中自動分析出熱點事件,並提供事件話題的關鍵特徵描述。同時適用於長文本和短信、微博等短文本的熱點分析。
  文本分類:根據規則或訓練的方法對大量文本進行分類,可用於新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面。
  摘要實體:對單篇或多篇文章,自動提煉出內容摘要,抽取人名、地名、機構名、時間及主題關鍵詞;方便用戶快速瀏覽文本內容。
  智能過濾:對文本內容的語義智能過濾審查,內置國內最全詞庫,智能識別多種變種:形變、音變、繁簡等多種變形,語義精準排歧。
  情感分析:針對事先指定的分析對象,系統自動分析海量文檔的情感傾向:情感極性及情感值測量,並在原文中給出正負面的得分和句子樣例。
  文檔去重:快速準確地判斷文件集合或數據庫中是否存在相同或相似內容的記錄,同時找出所有的重複記錄。
  全文檢索:支持文本、數字、日期、字符串等各種數據類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。
  編碼轉換:自動識別內容的編碼,並把編碼統一轉換爲其他編碼。
  中文分詞技術應時代的要求應運而生,在很大程度上滿足了人們對自然語言處理的需要,解決了人和計算機交流中的一些障礙;但中文分詞技術也存在很多困難,我們相信在未來的幾年裏,通過對中文分詞技術的深入研究,必將開發出高質量、多功能的中文分詞算法並促進自然語言理解系統的廣泛應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章