TechDay實錄|摘取皇冠上的明珠,中文NLP的不二選擇——PaddlePaddle

NLP (Natural Language Processing)自然語言處理是人工智能的一個子領域,它是能夠讓人類與智能機器進行溝通交流的重要技術手段,同時也是人工智能中最爲困難的問題之一。因此,NLP的研究處處充滿魅力和挑戰,也因此被稱爲人工智能“皇冠上的明珠”。

目前各家主流深度學習框架,都開放了相應的 NLP 算法模型。其中,百度 PaddlePaddle 基於自身技術優勢,在中文NLP領域提供豐富官方模型,全方位滿足各種NLP任務需求。

1 月 20 日下午 ,第二期百度深度學習開發者·技術公開課在百度大腦創新體驗中心開課。百度資深研發工程師爲現場的開發者們介紹了 PaddlePaddle 在 NLP 方向開源模型及技術實踐,Google 機器學習開發者專家和高級算法專家孔曉泉則講述了基於 PaddlePaddle 的中文分詞引擎應用案例。


中文分詞小試牛刀,100行代碼的分詞引擎實踐

與大部分西方語言不同,書面漢語的詞語之間沒有明顯的空格標記,句子是以字符串的形式出現,因此對中文進行處理的第一步就是進行自動分詞,即將字符串轉變成詞語串,這也是處理中文的語義分析、文本分類、信息檢索、機器翻譯、機器問答等問題的基礎。如果分詞效果不好,很有可能會對後續的任務造成嚴重的影響。

谷歌機器學習開發者專家和高級算法專家孔曉泉,爲大家分享了輕量級中文分詞引擎——PaddlePaddle Tokenizer。該引擎基於PaddlePaddle Fluid API打造,充分發揮PaddlePaddle代碼精簡、高效、可讀性高的特點,核心代碼只有不到100行,帶大家快速瞭解中文分詞模型的設計思路。

模型方法:

Embedding(字符嵌入) + BiLSTM(雙向LSTM) + CRF(隨機條件場)

系統設計:

通過將分詞信息編碼成 BMES (Begin, Middle, Eed, Single) 標籤,從而將分詞問題轉換成 BMES 標籤的序列預測問題。利用 Embeding + BiLSTM 提取字符的上下文特徵,利用 CRF 同時考慮字符級別和上下文序列的特性,從而預測全局最優 BEMS 序列。爲了抑制模型過擬合(Overfitting),在模型中使用了 Dropout 技術。

代碼實現:

在代碼實現層面,PaddleTokenizer 使用了 PaddlePaddle Fluid API,代碼精簡、高效、可讀性高,核心代碼少於100行。同時,PaddleTokenizer 通過提供 HTTP 接口的方式演示瞭如何使用 PaddlePaddle inferencemodel 對外提供服務。並提供了簡潔的 WebUI 作爲客戶端,方便用戶進行實際分詞效果的測試。

系統分析與演示:

核心代碼片段:

1. 定義輸入變量

2. EmbeddingLayer

3. BiLSTMLayer

4. DropoutLayer

5. CRFLayer

分詞效果展示:

GitHub地址:https://github.com/howl-anderson/PaddleTokenizer

豐富全面的NLP模型合集——PaddlePaddle官方模型庫

PaddlePaddle Tokenizer向大家展示了PaddlePaddle的高效易用,在PaddlePaddle官方模型庫中,PaddlePaddle還提供了豐富的NLP模型,包含詞法分析、語義匹配,還有情感分析、黃反識別用到的分類模型等,爲開發者打造了功能全面的中文NLP工具庫。

在公開課有限的時間裏,百度工程師主要講解了以下三大模型:

中文詞法分析(LAC)

相比輕量級的PaddlePaddle Tokenizer,LAC的功能更加豐富,是一個聯合的詞法分析模型,整體性地完成中文分詞、詞性標註、專名識別任務。LAC基於一個堆疊的雙向GRU結構,最上層建CRF 來預測整體模型,這比傳統基於統計的模型在分詞的準確性上有明顯提升,也是PaddlePaddle 在中文 NLP 領域長期深耕的體現。

DAM

在自然語言處理很多場景中,需要度量兩個文本在語義上的相似度,這類任務通常被稱爲語義匹配。例如在搜索中根據查詢與候選文檔的相似度對搜索結果進行排序,文本去重中文本與文本相似度的計算,自動問答中候選答案與問題的匹配等。

DAM (Deep Attention Matching Network)爲百度自然語言處理部發表於ACL-2018的工作,用於檢索式聊天機器人多輪對話中應答的選擇。DAM受Transformer的啓發,其網絡結構完全基於注意力(attention)機制,利用棧式的self-attention結構分別學習不同粒度下應答和語境的語義表示,然後利用cross-attention獲取應答與語境之間的相關性,在兩個大規模多輪對話數據集上的表現均好於其它模型。

MM-DNN

MM-DNN 模型的主要任務是計算 query 、檢索結果和推薦內容。計算query 與搜索結果的相似度在整個排序任務中是非常重要的權重。該模型的開源版本無論是在訓練效果還是訓練速度上都有明顯優勢。百度搜索業務中也涉及了這一算法模型。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章