原创 seq2seq的實現方式(2)

書接上文: 本篇實現的是(3)的方式,Encoder的隱層和Embeding的集合方式是sum,當然也可以改成其他的方式。下面就直接上代碼了: def build_model(self): encoder

原创 命名實體識別實踐(bert+微調)

任務場景 bert刷新了各大記錄,在這裏就不多介紹了,是一個非常好的預訓練模型,我們只需要根據後續任務進行微調,本文采用bert+微調的方式實現了一版NER。 def biuildModel(self): i

原创 命名實體識別實踐(詞典匹配)

任務場景: 實體識別任務中,如果有一份可靠的詞典,並且詞典和普通的文本間差異比較大的時候,其實可以用磁帶你匹配的方式進行實體識別。 本文中實現了一種詞典匹配的實體識別方式,採用的是正向最大匹配+檢索樹+樹尾標籤列表的方式實現的。也就是

原创 命名實體識別實踐(LSTM+CRF)

任務場景 實體識別是一個經典的序列標註任務,如果有一批已經標註的樣本,就可以考慮使用模型來進行訓練了,傳統的方式是用CRF++進行訓練隨着深度學習技術的興起,任務也基本圍繞着基礎的LSTM+CRF的基礎上或者進行微調。本文中實現了其基

原创 seq2seq的實現方式(1)

應用場景 seq2seq是自然語言處理應用中的常用模型,一般的機器翻譯,文本摘要,對話生成(雖然之前實現過基於語言模型+關鍵詞的生成方式,但這纔是正道),文本摘要等任務。更高級的模型也是從基礎的模型進行迭代的模型架構相對統一。 其具體

原创 seq2seq的實現方式(3)

書接上文 這裏實現的是方式(4),採用attention的方式。 def build_model(self): """""" encoder_input = layers.Input(shap

原创 新浪微博第三方授權

放平臺的應用中設置授權網址(一般有默認) 使用APP_KEY, APP_SECRET, REDIRECT_URL 去請求授權接口。 這裏可以參考別人已經寫好的demo https://github.com/olwolf/sinawe

原创 keras-contrib庫的安裝

安裝 keras-contrib pip install git+https://www.github.com/keras-team/keras-contrib.git 轉自: https://blog.csdn.net/jdzwan

原创 mdb文件內容導出

使用命令(ubuntu系統): mdb-export test.mdb tablename > /home/test/tablename.csv 備註:之前工作整理

原创 AipNlp測試

AipNlp AipNlp是百度家的自然語言接口,功能呢個挺全的,在系統構建之初已有的功能可以先取之應急,把系統搭建起來,然後再相應的改成自有實現。(當然要在百度平臺申請帳號,獲取相應的KEY,這裏就略去了) from aip imp

原创 keras 多任務多loss

記錄一下: # Three loss functions category_predict1 = Dense(100, activation='softmax', name='ctg_out_1')( Dropout(0.5)

原创 文本相似度計算與檢索

前言: 文本的檢索和相似度計算在nlp的應用中有很重要的作用,本文介紹了一種簡單方法對問答匹配進行一種實現,即在所有的query中找到和用戶輸入query罪匹配的一項。本方法比較適合細粒度的匹配。 主要技術: (1)關鍵詞分析:提取出

原创 tensorflow-gpu DLL問題解決

前提: NVIDIA 驅動程序下載。 CUDA下載,現在到了v10.0了。 cudnn下載,並將相應文件拷貝到NVIDIA GPU Computing Toolkit\CUDA\v10.0對應目錄下。 環境: 安裝C++編譯程序。05

原创 序列相似性比對(1)

序列的相似索引和相似度計算 直接代碼: def seq_match_pattern_2(self, list_char, list_char_other): """基於字符序列的比對 @:param

原创 自定義層多輸出時需要list包裝

在自定義層多輸出時,需要在計算compute_output_shape 和 call 中 將返回結果用 [ ] 包裝。 如:return output, indices 會封裝成( output, indices)所以會有’tu