原创 Tensorflow常見模型及工程化方法

Tensorflow在深度學習模型研究中起到了很大的促進作用,靈活的框架免去了研究人員、開發者大量的自動求導代碼工作。本文總結一下常用的模型代碼和工程化需要的代碼。有需求的同學收藏一下,以便日後查閱。Tensorflow常見模型A. LST

原创 遷移學習在自然語言處理領域的應用

遷移學習 遷移學習近年來在圖形領域中得到了快速的發展,主要在於某些特定的領域不具備足夠的數據,不能讓深度模型學習的很好,需要從其它領域訓練好的模型遷移過來,再使用該模型進行微調,使得該模型能很好地擬合少量數據的同時又具備較好的

原创 分類問題樣本不均衡常見的解決方法

分類時,由於訓練集合中各樣本數量不均衡,導致模型訓偏在測試集合上的泛化性不好。解決樣本不均衡的方法主要包括兩類:(1)數據層面,修改各類別的分佈;(2)分類器層面,修改訓練算法或目標函數進行改進。還有方法是將上述兩類進行融合。數據層面1.

原创 Pointer Network

Pointer Network是seq2seq模型的一種變型。seq2seq模型是一種編碼-解碼框架的端到端生成模型,已經在機器翻譯、對話生成、語法改錯等領域有了成功的進展。本文不再贅述。此處主要介紹Pointer Networ

原创 nlp文本常見預處理方法

1. 去除標點2. 圓角轉半角3. 判斷是否爲unicode的中文4. 判斷是否爲英文unicode編碼5. 判斷是否爲數字的unicode編碼6. 判斷是否爲常用標點