台部落旭旭_哥

原创 xlnet中文文本分類任務

xlnet中文版本預訓練模型終於出來了，見地址https://github.com/ymcui/Chinese-PreTrained-XLNet ，出來之後嘗試了下中文文本分類模型，xlnet模型相比bert有很多東西做了改變，模型層面的

2019-08-28 15:01:53

原创 xlnet模型微調---英文文本分類

每隔一段時間在NLP領域都有個新聞，xx模型全面超越bert，今天也不例外，今天刷屏的是xlnet網絡，在bert的基礎上做了修改，模型網絡是24層，模型大小是中文的bert的4倍左右，看下怎麼玩，其中英文分詞這裏原代碼中用的是 sent

2019-06-21 15:11:02

原创利用spark生成tfrecord文件

目前數據越來越多，數據一般存儲在hdfs上，但是目前許多深度學習算法是基於TensorFlow、pytorch等框架實現，使用單機python、java做數據轉換都比較慢，怎麼大規模把hdfs數據直接喂到TensorFlow中，在這裏Te

2019-04-24 18:18:52

285

原创 bert語義相似度計算

bert語義相似性計算，這個和上一塊的文本分類模型有點類似，但是segment_ids稍微和文本分類不一樣，數據集可以參照螞蟻金服語義相似度計算的文本（可以搜索螞蟻金服語義相似比賽數據可以多出下載到），兩個句子之間通過[SEP]分割，[C

2019-01-13 01:03:16

原创 bert模型文本分類

bert模型文本分類，實際這個東西google官方已經提供了代碼，做文本分類實際是一個最簡單的問題，下面用官方代碼改了下，可以在低版本的tensorflow上運行，至於數據格式不再做多談，就是input、inputmask、label，其

2019-01-13 01:03:16

原创 tf.decode_csv() error: “Unquoted fields cannot have quotes/CRLFs inside”

今天利用模型預測表中的數據寫到另外一個表中爆這個錯誤，找了一些資料沒找到原因，後來查看函數的本身用法，有個參數是use_quote_delim 參數，看原始代碼的解釋爲： se_quote_delim: An optional `boo

2018-12-29 03:56:45

原创從0到1開始訓練一個bert語言模型

原始地址：https://daiwk.github.io/posts/nlp-bert-code.html 目錄 pretrained model Sentence (and sentence-pair) classification

2018-12-15 00:27:26

154

原创 bert模型字向量獲取---web服務

週末花時間寫了個bert子向量獲取的web服務，這東西以後完全是要替換word2vec模型，再過些估計會像word2vec那樣，每個人都可以玩，下面看看怎麼使用把，不難：中文bert模型下載：https://storage.goog

2018-12-11 00:44:35

原创 BERT+BiLSTM-CRF-NER用於做ner識別

本週五快下班的時候看到別人寫了個bert語言模型作爲輸入，用於做ner識別，後面可以是cnn或者直接是crf層，bert在這裏作爲word2vec模型的替換着，原始地址https://github.com/macanv/BERT-BiLS

2018-12-08 01:31:02

172

原创 topk相似度性能比較（kd-tree、kd-ball、faiss、annoy、線性搜索）

目前對向量topk相似度計算算法有許多，如下圖：關於向量取topk相似度的應用場景很多，比如推薦系統裏面使用item2vec經常離線計算好topk的相似度，搜索領域裏面的query2vec使用topk相似度，word2vec領域裏面的

2018-11-19 22:17:30

1816

原创 xlnet中文文本分類任務

原创 xlnet模型微調---英文文本分類

原创利用spark生成tfrecord文件

原创 bert語義相似度計算

原创 bert模型文本分類

原创 tf.decode_csv() error: “Unquoted fields cannot have quotes/CRLFs inside”

原创從0到1開始訓練一個bert語言模型

原创 bert模型字向量獲取---web服務

原创 BERT+BiLSTM-CRF-NER用於做ner識別

原创 topk相似度性能比較（kd-tree、kd-ball、faiss、annoy、線性搜索）

原创 NLP中語言模型預訓練方法

原创專題-句向量（Sentence Embedding）

原创短文本分類的 ResLCNN 模型

原创大規模中文概念圖譜CN-Probase正式發佈

原创谷歌最強 NLP 模型 BERT 解讀