原创 xlnet中文文本分類任務

xlnet中文版本預訓練模型終於出來了,見地址https://github.com/ymcui/Chinese-PreTrained-XLNet ,出來之後嘗試了下中文文本分類模型,xlnet模型相比bert有很多東西做了改變,模型層面的

原创 xlnet模型微調---英文文本分類

每隔一段時間在NLP領域都有個新聞,xx模型全面超越bert,今天也不例外,今天刷屏的是xlnet網絡,在bert的基礎上做了修改,模型網絡是24層,模型大小是中文的bert的4倍左右,看下怎麼玩,其中英文分詞這裏原代碼中用的是 sent

原创 利用spark生成tfrecord文件

目前數據越來越多,數據一般存儲在hdfs上,但是目前許多深度學習算法是基於TensorFlow、pytorch等框架實現,使用單機python、java做數據轉換都比較慢,怎麼大規模把hdfs數據直接喂到TensorFlow中,在這裏Te

原创 bert語義相似度計算

bert語義相似性計算,這個和上一塊的文本分類模型有點類似,但是segment_ids稍微和文本分類不一樣,數據集可以參照螞蟻金服語義相似度計算的文本(可以搜索螞蟻金服語義相似比賽數據可以多出下載到),兩個句子之間通過[SEP]分割,[C

原创 bert模型文本分類

bert模型文本分類,實際這個東西google官方已經提供了代碼,做文本分類實際是一個最簡單的問題,下面用官方代碼改了下,可以在低版本的tensorflow上運行,至於數據格式不再做多談,就是input、inputmask、label,其

原创 tf.decode_csv() error: “Unquoted fields cannot have quotes/CRLFs inside”

今天利用模型預測表中的數據寫到另外一個表中爆這個錯誤,找了一些資料沒找到原因,後來查看函數的本身用法,有個參數是use_quote_delim 參數,看原始代碼的解釋爲: se_quote_delim: An optional `boo

原创 從0到1開始訓練一個bert語言模型

原始地址:https://daiwk.github.io/posts/nlp-bert-code.html   目錄 pretrained model Sentence (and sentence-pair) classification

原创 bert模型字向量獲取---web服務

週末花時間寫了個bert子向量獲取的web服務,這東西以後完全是要替換word2vec模型,再過些估計會像word2vec那樣,每個人都可以玩,下面看看怎麼使用把,不難:   中文bert模型下載:https://storage.goog

原创 BERT+BiLSTM-CRF-NER用於做ner識別

本週五快下班的時候看到別人寫了個bert語言模型作爲輸入,用於做ner識別,後面可以是cnn或者直接是crf層,bert在這裏作爲word2vec模型的替換着,原始地址https://github.com/macanv/BERT-BiLS

原创 topk相似度性能比較(kd-tree、kd-ball、faiss、annoy、線性搜索)

目前對向量topk相似度計算算法有許多,如下圖: 關於向量取topk相似度的應用場景很多,比如推薦系統裏面使用item2vec經常離線計算好topk的相似度,搜索領域裏面的query2vec使用topk相似度,word2vec領域裏面的

原创 NLP中語言模型預訓練方法

最近,在自然語言處理(NLP)領域中,使用語言模型預訓練方法在多項NLP任務上都獲得了不錯的提升,廣泛受到了各界的關注。就此,我將最近看的一些相關論文進行總結,選取了幾個代表性模型(包括ELMo [1],OpenAI GPT [2]和BE

原创 專題-句向量(Sentence Embedding)

原始地址:https://github.com/imhuay/Algorithm_Interview_Notes-Chinese/blob/master/B-%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%

原创 短文本分類的 ResLCNN 模型

發現一個有意思的模型,也是利用何凱明殘差網絡的思想,具體網絡結構可以看下:   作者看了下各種實驗結果:   原始地址: https://blog.csdn.net/gentelyang/article/details/8084058

原创 大規模中文概念圖譜CN-Probase正式發佈

歷時多年的研發,復旦大學知識工場實驗室正式推出大規模中文概念圖譜——CN-Probase,用於幫助機器更好的理解人類語言。概念圖譜中包含實體(比如“劉德華”)、概念(比如“演員”),實體與概念之間的類屬關係(又稱isA關係,比如 “劉德華

原创 谷歌最強 NLP 模型 BERT 解讀

從elmo-->ULMFiT-->gpt-->bert,大概是這個流程   最近谷歌研究人員通過新的BERT模型在11項NLP任務中奪得STOA結果,這在自然語言處理學界以及工業界都引起了不小的熱議。作者通過在33億文本的語料上訓練語言模