自然語言處理入門第一章筆記

1.1自然語言與編程語言

	讓計算機學會處理人類語言、乃至理解並運用人類語言或人工智能  
	當然人工智能不止是自然語言處理, 還有計算機視覺和語音識別。***這個星球上有許多生物擁有超過人類的視覺系統,但只有人類才擁有這麼高級的語言***。完美的語言理解等價於實現人工智能。
	拿自然語言和人工語言來做一番比較。看計算機理解我們的語言是多麼的困難。
  1. 詞彙量
    自然語言中詞彙量比編程語言中關鍵詞豐富。除此之外我們還可以隨時的創造各種類型的新詞。
  2. 結構化
    自然語言是非結構化的,編程語言是結構化的
  3. 歧義性
    自然語言含有大量的歧義性,根據語境的不同表現爲不同的形式。如漢語中多義詞,只有在特定的上下文中才能確定其含義。
    如:

他說:“她這個人挺有意思。”她說:“他這人挺有意思。”於是有人傳言:他和她有了意思,要趕快意思意思。他發火了,說:“你們這樣瞎說是什麼意思。”傳言者有點不好意思,便解釋說:僅僅是開開玩笑而矣,絕對沒有別的意思。“事後,有人說:”真有意思。“也有人說:”真沒意思。”

在編程語言中 此問題則不會出現不存在歧義性,若程序員編寫了有歧義的代碼則會編譯失敗。

  1. 容錯性
    書刊中的語言即使經過多次校對也無法完全避免錯誤。 編程語言中程序員必須保證絕對正確、語法絕對規範,否則仍然是無法編譯通過。如何處理不規範的社交媒體文本也成爲了一個新的課題
  2. 易變性
    任何語言都是不斷髮展變化的,相比較而言,編程語言變化溫和緩慢的多。自然語言變化的迅速嘈雜一些。
    每個人都可以自由地創造和傳播新詞彙新語法,不停的賦予舊詞彙以新含義。這些變化是連續的,每時每刻都在進行着,給自然語言的處理帶來了不小的挑戰性
  3. 簡略性
    相比較於說話速度聽話速度書寫和閱讀速度 ,人類語言往往更加簡練。如老地方見,省略大量的背景知識和常識。 這些省略的常識是交流雙方共同擁有而計算機不一定擁有的所以也給自然語言處理帶來個障礙。

1.2自然語言處理的層次

  1. 自然語言處理層次

  2. 語音、圖像和文本:
    自然語言處理的輸入源有三個 :語音、圖像和文本。 前兩種形式經過識別後轉換爲文本。

  3. 中文分詞、詞性標註和命名實體識別:
    這3個任務都是圍繞詞語進行的分析,統稱爲詞法分析。
    分割有意義的詞語(中文分詞)、確定詞語類別並進行淺層次的歧義消除(詞性標註)、識別一些較長的專有名詞(命名實體識別)。詞法分析是後續高級任務的基礎。基本已達到工業使用的水準

  4. 信息抽取:
    詞法分析之後,文本已經呈現出部分結構化的趨勢,至少,計算機看到的不再是一個超長的字符串,而是有意義的單詞列表。每個單詞還附有自己的詞性以及其他的標籤。根據這些單詞和標籤 我們可以抽取出一部分有用的信息,抽取出關鍵的句子以及文本,更大顆粒度對用戶更加友好。

  5. 文本分類與文本聚類:
    將文本拆分爲一系列詞語後,可以在文章級別做一系列分析。
    分門類別整理 分類
    不關心具體的類別 聚類
    看似相同其實是兩種截然不同的流派

  6. 句法分析:
    詞法分析只能分析零散的詞彙信息,不知道詞語之間的關係。
    在一些問答系統中,需要得到主謂賓的關係,不僅是問答系統搜索引擎 還常用於基於短語的機器翻譯

  7. 語義分析和篇章分析:
    相較於句法分析 ,語義分析更側重於語義而非語法。包括詞意消歧(確定一個詞在特定語境下的含義) 語義角色標註 乃至語義依存關係(分析句子中詞語之間的語義關係
    屬於較爲高級的課程,即便最前沿的研究,尚未達到能夠實用的精確程度。

瞭解自然語言處理的整個宏觀圖景有助於開拓視野,找準定位和方向

1.3自然語言處理的流派

  1. 基於規則的專家系統
  2. 基於統計的學習方法

1.4機器學習

模型 + 特徵 + 數據集(在NLP中成爲語料庫)

1.5語料庫

  1. 中文分詞語料庫
  2. 詞性標註語料庫
  3. 命名實體識別語料庫
  4. 句法分析語料庫
  5. 文本分類語料庫

1.6開源工具

  1. 教學常用的NLTK
  2. 斯坦福大學開發的CoreNLP
  3. 哈工大開發的LTP
  4. 何晗開發的HanLP

1.7總結 summarization

**在第一章 HanLP在java中配置上遇到許多問題 **

  1. 在cmd控制檯中install pyhanlp 和在conda中install jpype1 jpype1 是在python中調用java的常用工具
  2. 以及配置java接口遇到的問題 在IDEA重新安裝時遇到的激活碼註冊 設置jdk版本 setting問題 還有導入hanlp.jar包的問題處理 一一記錄下來 以便於在日後翻閱回顧。 2020/3/11
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章