原创 2、TF-IDF和BM25

這兩者計算的都是文檔和文本之間的相似度,如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF       假設文本是“我怎麼這麼帥氣”,4個詞,第一個詞“我”, 文檔1中一共有10個詞,“我”有2次,這個詞的詞頻都是2,這

原创 統計學習方法學習1.0

決策樹 決策樹是一種分類和迴歸方法 優點:模型可讀性,分類速度快 過程:特徵選擇、決策樹的生成、決策樹的剪枝 損失函數:正則化的極大似然函數 特徵選擇:多個特徵時,如何選擇某個特徵作爲判斷的依據 信息增益:               熵

原创 6、摘要提取算法

目前主要方法有: 基於統計:統計詞頻,位置等信息,計算句子權值,再簡選取權值高的句子作爲文摘,特點:簡單易用,但對詞句的使用大多僅停留在表面信息。 基於圖模型:構建拓撲結構圖,對詞句進行排序。例如,TextRank/LexRank 基於潛

原创 5、分詞算法

1、正向最大匹配:已有字典,最長詞長度爲m,判斷當前位置i到i+m中存在的最長的詞 2、反向最大匹配:相反 3、雙向最大匹配:正向和逆向同時進行,取效果最好的,效果最好的評價標準是:分詞結果詞的數量少,單個字少 4、HMM分詞。自己之前寫

原创 pcnn關係抽取論文閱讀總結:儘量細節表現出來

目的之類的就不用說了,直接說pcnn做實體關係抽取的過程: 1、把輸入轉換成對應的向量:      上面的輸入是 I hired Kojo Annan,the son of Kofi Annan,in the company。    

原创 igit使用防掉坑指南

1、下載安裝,網絡差的話就會失敗,一般就是下載超時什麼的,之前說過解決辦法,但這裏建議找個好點的網絡就ok,安裝步驟隨便找個勾勾選項就ok,影響不大 2、下面儘量超級詳細點:         1、啓動:隨便找個空地方右鍵點擊Git Bas

原创 Lattice LSTM

Lattice LSTM 由於中文的實體一般都是由詞語組成的,所以分詞與NER在中文領域具有很強的相關性,一般操作是先分詞,再做詞序列標註。很明顯的,分詞錯誤會導致ner的錯誤,尤其在開放領域,跨領域分詞仍然是一個難題。 簡單來說Latt

原创 BiLSTM+CRF code

開始擼代碼: 1.先定義參數,          batch_size:64          epoch:40          hidden_dim:300          learning_rate:0.001         d

原创 雙層LSTM+CRF做實體識別,詳細過程,看不懂我自罰三杯!!!

BiLSTM+CRF: 如果看了之後還看不懂,我自罰三杯!!! 參考的是國外一個很好的博客,原文鏈接:https://createmomo.github.io/2017/12/06/CRF-Layer-on-the-Top-of-BiLS

原创 損失函數

1、0-1損失:你不=我,就是1;你=我,就是0 2、感知損失:在1的基礎上設定一個閾值 3、hinge 損失:max{0, 1 - 你*我},說是能解決SVM問題中幾何間隔最大化問題 4、交叉熵:-疊加(你*log我),就是求相對熵的公

原创 adam算法相關知識

學習鏈接:https://blog.csdn.net/Solo95/article/details/84842144 1、指數加權平均:     2、使用動量的梯度下降:          3、RMSprop算法:       4、Ada

原创 java調用文本分類textrnn模型,勿踩坑

直接貼代碼 # 將模型保存爲可用於線上服務的文件(一個.pb文件,一個variables文件夾) # print('Exporting trained model to', save_dir) builder = tf.saved_mo

原创 Windows python3.5版本,無CUDA下pip安裝pytorch,防掉坑

1、進入PyTorch的官網:https://pytorch.org/get-started/locally/ 選擇你需要安裝的版本,Run this Command指的是cmd命令下運行的代碼,分別安裝torch和相應的深度學習庫,當

原创 java日常學習四:調用機器學習分類模型

// 下載模型 private static final SavedModelBundle modelBundle = SavedModelBundle.load(模型路徑,"serve"); // session private st

原创 java日常學習三:配置文件的讀取

格式: <root>       <intent_pattern>               <question intent="age" user="C">年[齡紀]|多大(?!面積)|歲</question>       </int