原创 Transformer與Transformer-XL

回顧Transformer 在NLP領域,對語言建模最常用的模型就是RNNS(包括LSTM),但是RNNS存在一些問題,比如學習長期依賴的能力很弱(LSTM語言模型平均只能建模200個上下文詞語),而且學習速度也很慢。 在2017

原创 Transformers庫簡單使用

Transformers庫也叫(pytorch-transformers and pytorch-pretrained-bert),提供了很多SOTA的預訓練模型,比如BERT, GPT-2, RoBERTa, XLM, Dist

原创 pytorch-pretrained-bert簡單使用

轉載自:9012年,該用bert打比賽了 從下載模型權重開始 # 切換到你的anaconda gpu 環境 # source activate 你的conda環境名稱 ​ # 安裝加載預訓練模型&權重的包 pip install

原创 自迴歸語言模型(AR)和自編碼語言模型(AE)

自迴歸語言模型(Autoregressive LM) 在ELMO/BERT出來之前,大家通常講的語言模型其實是根據上文內容預測下一個可能跟隨的單詞,就是常說的自左向右的語言模型任務,或者反過來也行,就是根據下文預測前面的單詞,這種

原创 torch.stack()解析

torch.stack()是將原來的幾個tensor按照一定方式進行堆疊,然後在按照堆疊後的維度進行切分。 有a,b,c三個tensor. dim=0 dim=1 dim=2 參考:torch.stack(), torc

原创 super(Student,self).__init__()的作用

class Person(object): def __init__(self, name, gender, age): self.name = name.upper() self.gend

原创 pytorch的模型保存與讀取(state_dict)

pytorch的狀態字典 state_dict

原创 TF中的負採樣損失函數(word2vec中的負採樣)

在訓練word2vec的時候,爲了預測目標詞是哪個詞,我們要使用softmax函數進行預測,也就是一個softmax多分類的問題(每個單詞就是一類)。類似下面的式子 p(oj∣wi)=ef(oj,wi)∑j=1∣V∣ef(oj,w

原创 python3讀取python2的npy文件

python3讀取python2打包的npy文件會報錯,原因是編碼方式不同,所以只要在讀取的時候加上編碼方式即可. docs_train = np.load('./data/20news_clean/train.txt.npy',

原创 Batch Normalization原理與實戰(轉)

Batch Normalization原理與實戰 點贊 收藏 分享 文章舉報 風吹草地現牛羊的馬 發佈了298 篇原創文章 · 獲贊 41 · 訪問量 5萬+ 私信

原创 python中matplotlib的顏色及線條控制(轉)

(原)python中matplotlib的顏色及線條控制 點贊 收藏 分享 文章舉報 風吹草地現牛羊的馬 發佈了298 篇原創文章 · 獲贊 41 · 訪問量 5萬+

原创 pytorch nn.LSTM()參數詳解

函數 class torch.nn.LSTM(*args, **kwargs) 參數列表 input_size:x的特徵維度 hidden_size:隱藏層的特徵維度 num_layers:lstm隱層的層數,默認爲1 bia

原创 Python中使用Stanford CoreNLP

Python中使用Stanford CoreNLP 點贊 收藏 分享 文章舉報 風吹草地現牛羊的馬 發佈了298 篇原創文章 · 獲贊 41 · 訪問量 5萬+ 私

原创 使用gensim實現LDA資源合集

GENSIM 使用筆記1 — 語料和向量空間 GENSIM 使用筆記2 — 主題模型和相似性查詢 LDA計算 perplexity(困惑度)確定主題個數(代碼) python下進行lda主題挖掘(二)——利用gensim訓練LDA

原创 連續型和離散型隨機變量(基於Gumbel Softmax)的重參數化

本文是閱讀蘇劍林大佬的博客漫談重參數:從正態分佈到Gumbel Softmax之後的記錄,算是自己的閱讀筆記吧。 在蘇大佬的那篇博客中,分別針對連續型和離散型隨機變量講解了如何進行重參數化,但是自己不是特別理解離散型隨機變量的重參