原创 文本分類 之 詞向量平均模型 Word Average Model

這是一個文本分類的系列專題,將採用不同的方法有簡單到複雜實現文本分類。 使用Stanford sentiment treebank 電影評論數據集 (Socher et al. 2013). 數據集可以從這裏下載 鏈接:數據集

原创 DeepLearning-Python 用到的技巧

1. sys.setrecursionlimit(10000) 設置遞歸深度。Python裏面默認的遞歸深度是很有限的,大概是900多的樣子,當遞歸深度超過這個值的時候,就會引發這樣的一個異常。解決的方式是手工設置遞歸調用深度 添

原创 文本摘要的評測方法:Rouge-1, Rouge-2, Rouge-L, Rouge-S

關於Rouge Rouge(Recall-Oriented Understudy for Gisting Evaluation),是評估自動文摘以及機器翻譯的一組指標,它通過將自動生成的摘要或翻譯 與 一組參考摘要(通常是人工生成

原创 XLNET-2

XLNET 這一篇講的太好了XLNET 解讀 自迴歸語言模型(Autoregression LM) 在ELMO/BERT出來之前,大家通常講的語言模型其實是根據上文內容預測下一個可能跟隨的單詞,就是常說的自左向右的語言模型任務,或

原创 NLP-4:ALBERT

目錄回顧BERT1. 降低模型參數,加寬加深模型2. 改進NSP任務爲SOP3. 去掉dropout4. 增加訓練數據總結 以下內容來自貪心學院NLP直播課。 簡介:雖然BERT模型本身是很有效的,但這種有效性依賴於大量的模型參數

原创 基於BERT的數據庫的問答系統

目錄一. 知識圖譜的介紹1. 知識庫與三元組2. 知識庫問答3. 知識庫問答的主流方法4. 基於深度學習的KQ問答二. 本項目介紹1. 項目數據集2. 處理數據集2.1 構造命名實體識別數據集2.2 構造知識庫數據集2.3 構建

原创 深度學習中的正則化--花書第7章

機器學習的核心問題是設計不僅在訓練集上表現好, 並且在新輸入上泛化好的算法.許多策略被用來減少測試誤差(這些策略在減少測試誤差的同時 有可能增加訓練誤差),這就叫正則化. 參數範數懲罰 原始目標函數爲 JJJ. 添加正則化後的目標

原创 深度學習中歸一化

歸一化層,目前主要有幾個方法: Batch Normalization, Layer Normalization, Instance Normalization, Group Normalization, Switchable N

原创 opencv lib庫安裝

安裝opencv-python之後 缺少lib庫, 一次安裝如下: sudo apt-get install libglib2.0-dev libsm6 libxrender1 libxext-dev --fix-missin

原创 GAN中的散度和距離

KL散度(相對熵) 可以用來衡量兩個概率分佈之間的差異,又稱爲相對熵,和信息熵。 概率分佈P1和P2的KL散度: KL(P1∣∣P2)=Ex p1log(p1p2)=∫xp1(x)log(p1(x)p2(x))dxKL(P1||P

原创 NLP-5:XLNET

目錄1. Unsupervised pre-training2. Autogressive vs Auto-encoding3. Permutation Language Model目標:改進Auto-regressive 爲雙向