TechDay實錄|摘取皇冠上的明珠，中文NLP的不二選擇——PaddlePaddle

NLP (Natural Language Processing)自然語言處理是人工智能的一個子領域，它是能夠讓人類與智能機器進行溝通交流的重要技術手段，同時也是人工智能中最爲困難的問題之一。因此，NLP的研究處處充滿魅力和挑戰，也因此被稱爲人工智能“皇冠上的明珠”。

目前各家主流深度學習框架，都開放了相應的 NLP 算法模型。其中，百度 PaddlePaddle 基於自身技術優勢，在中文NLP領域提供豐富官方模型，全方位滿足各種NLP任務需求。

1 月 20 日下午，第二期百度深度學習開發者·技術公開課在百度大腦創新體驗中心開課。百度資深研發工程師爲現場的開發者們介紹了 PaddlePaddle 在 NLP 方向開源模型及技術實踐，Google 機器學習開發者專家和高級算法專家孔曉泉則講述了基於 PaddlePaddle 的中文分詞引擎應用案例。

中文分詞小試牛刀，100行代碼的分詞引擎實踐

與大部分西方語言不同，書面漢語的詞語之間沒有明顯的空格標記，句子是以字符串的形式出現，因此對中文進行處理的第一步就是進行自動分詞，即將字符串轉變成詞語串，這也是處理中文的語義分析、文本分類、信息檢索、機器翻譯、機器問答等問題的基礎。如果分詞效果不好，很有可能會對後續的任務造成嚴重的影響。

谷歌機器學習開發者專家和高級算法專家孔曉泉，爲大家分享了輕量級中文分詞引擎——PaddlePaddle Tokenizer。該引擎基於PaddlePaddle Fluid API打造，充分發揮PaddlePaddle代碼精簡、高效、可讀性高的特點，核心代碼只有不到100行，帶大家快速瞭解中文分詞模型的設計思路。

模型方法：

Embedding(字符嵌入) + BiLSTM(雙向LSTM) + CRF(隨機條件場)

系統設計：

通過將分詞信息編碼成 BMES (Begin, Middle, Eed, Single) 標籤，從而將分詞問題轉換成 BMES 標籤的序列預測問題。利用 Embeding + BiLSTM 提取字符的上下文特徵，利用 CRF 同時考慮字符級別和上下文序列的特性，從而預測全局最優 BEMS 序列。爲了抑制模型過擬合（Overfitting），在模型中使用了 Dropout 技術。

代碼實現：

在代碼實現層面，PaddleTokenizer 使用了 PaddlePaddle Fluid API，代碼精簡、高效、可讀性高，核心代碼少於100行。同時，PaddleTokenizer 通過提供 HTTP 接口的方式演示瞭如何使用 PaddlePaddle inferencemodel 對外提供服務。並提供了簡潔的 WebUI 作爲客戶端，方便用戶進行實際分詞效果的測試。

系統分析與演示：

核心代碼片段：

1. 定義輸入變量

2. EmbeddingLayer

3. BiLSTMLayer

4. DropoutLayer

5. CRFLayer

分詞效果展示：

GitHub地址：https://github.com/howl-anderson/PaddleTokenizer

豐富全面的NLP模型合集——PaddlePaddle官方模型庫

PaddlePaddle Tokenizer向大家展示了PaddlePaddle的高效易用，在PaddlePaddle官方模型庫中，PaddlePaddle還提供了豐富的NLP模型，包含詞法分析、語義匹配，還有情感分析、黃反識別用到的分類模型等，爲開發者打造了功能全面的中文NLP工具庫。

在公開課有限的時間裏，百度工程師主要講解了以下三大模型：

中文詞法分析（LAC）

相比輕量級的PaddlePaddle Tokenizer，LAC的功能更加豐富，是一個聯合的詞法分析模型，整體性地完成中文分詞、詞性標註、專名識別任務。LAC基於一個堆疊的雙向GRU結構，最上層建CRF 來預測整體模型，這比傳統基於統計的模型在分詞的準確性上有明顯提升，也是PaddlePaddle 在中文 NLP 領域長期深耕的體現。

DAM

在自然語言處理很多場景中，需要度量兩個文本在語義上的相似度，這類任務通常被稱爲語義匹配。例如在搜索中根據查詢與候選文檔的相似度對搜索結果進行排序，文本去重中文本與文本相似度的計算，自動問答中候選答案與問題的匹配等。

DAM (Deep Attention Matching Network)爲百度自然語言處理部發表於ACL-2018的工作，用於檢索式聊天機器人多輪對話中應答的選擇。DAM受Transformer的啓發，其網絡結構完全基於注意力(attention)機制，利用棧式的self-attention結構分別學習不同粒度下應答和語境的語義表示，然後利用cross-attention獲取應答與語境之間的相關性，在兩個大規模多輪對話數據集上的表現均好於其它模型。

MM-DNN

MM-DNN 模型的主要任務是計算 query 、檢索結果和推薦內容。計算query 與搜索結果的相似度在整個排序任務中是非常重要的權重。該模型的開源版本無論是在訓練效果還是訓練速度上都有明顯優勢。百度搜索業務中也涉及了這一算法模型。

TechDay實錄|摘取皇冠上的明珠，中文NLP的不二選擇——PaddlePaddle

free AI online tools All In One

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

簡單搜索--Paddle Mobile的技術實現和業務落地

首場百度大腦開放日來襲 | 全新開放24項AI技術

AI Studio教育版評測：AI真的能夠進入校園嗎？

百度獻禮高校開學季：AI Studio教育版上線！

百度 PaddlePaddle開源視頻分類模型Attention Cluster，曾奪挑戰賽冠軍

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結