課程目標
- 語言結構:依賴解析
- 句法結構:一致性和依賴性
- 依賴語法和樹庫
- 基於過渡的依賴分析
- 神經依賴分析
一、兩種語言結構的觀點:短語語法結構=上下文無關文法
短語結構將單詞組織成嵌套的成分
單個單詞:
the, cat, cuddly, by, door
單詞連接成短語:
the cuddly cat, by the door
短語連接成更大的短語
the cuddly cat by the door
短語結構將單詞組織成嵌套的成分,可以用CFG規則表示語法
單個單詞被賦予一個類別
單詞使用類別構成短語
短語被遞歸的構成更大的短語
pp:prejudice phrase介詞短語
np:noun phrase名詞短語
依賴結構顯示哪些單詞依賴於哪些單詞。
我們爲什麼需要句子結構?
我們需要理解句子結構以便能夠正確的解釋語言
人類通過把單詞組合成更大的單元來表達自己的想法
我們需要什麼是和什麼關聯在一起的
在英語中介詞短語依附是有歧義的。
舉了幾個例子分析單詞的依賴分析,說明介詞短語、修飾範圍、動詞短語的依附歧義。
依賴路徑識別語義關係——例如,對於蛋白質交互作用
二、依賴語法和依賴結構
依賴語法假定句法結構由詞彙項的關係組成,依賴通常是單向的箭頭
箭頭通常與語法關係的名稱(主語、介詞賓語、同位語等)一起輸入。
箭頭連接頭和從屬
依賴關係就形成了一棵樹
依賴語法和結構
通常會添加一個虛擬的root這樣每個單詞都精確的依賴另一個節點
註釋數據的興起:通用依賴樹庫
建立一個樹庫似乎比構建語法慢得多,也沒那麼有用。
但是一個樹庫給我們帶來很多東西
重複利用已有成果
許多解析器,詞性分析可以基於它構建
覆蓋面廣
一種評價其他系統的方法
當單詞以線性順序排列時,沒有交叉的依賴弧,所有的弧都在單詞之上
三、貪婪的基於過渡的解析器
(關於這個部分其實不是很理解,下面都是根據ppt進行簡單的翻譯)
一種簡單的貪婪判別依賴解析器。
解析器執行一系列自底向上的操作
大致上類似於shift-reduce解析器中的“shift”或“reduce”,但是“reduce”操作專門用於在左或右的頭部的依賴項
解析器有:
一個棧:以一個root開頭,從頂部到右邊
一個緩衝區,從頂部到左邊,以一個輸入的句子開頭
一個依賴集合A,開始爲空
一系列動作
介紹了一個解析器:MaltParser
該模型的精度略低於依賴項解析的最新水平,但它提供了非常快的線性時間解析,性能非常好
評估的辦法:
爲什麼要訓練神經依賴解析器?特性指標回顧
95%以上的解析時間用於特徵計算。
解決辦法:學習密集和緊湊的特性表示
一個神經網絡解析器
每個單詞使用一個d維度的密集向量表示,相似的單詞有相近的向量
同時,部分標籤和依賴標籤也用一個d維度的向量表示
我們根據堆棧/緩衝區位置提取一組令牌:
我們將它們轉換爲向量嵌入並將它們連接起來
模型結構:
神經網絡可以準確地確定句子的結構,支持解釋。