原创 2、TF-IDF和BM25
這兩者計算的都是文檔和文本之間的相似度,如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF 假設文本是“我怎麼這麼帥氣”,4個詞,第一個詞“我”, 文檔1中一共有10個詞,“我”有2次,這個詞的詞頻都是2,這
原创 統計學習方法學習1.0
決策樹 決策樹是一種分類和迴歸方法 優點:模型可讀性,分類速度快 過程:特徵選擇、決策樹的生成、決策樹的剪枝 損失函數:正則化的極大似然函數 特徵選擇:多個特徵時,如何選擇某個特徵作爲判斷的依據 信息增益: 熵
原创 6、摘要提取算法
目前主要方法有: 基於統計:統計詞頻,位置等信息,計算句子權值,再簡選取權值高的句子作爲文摘,特點:簡單易用,但對詞句的使用大多僅停留在表面信息。 基於圖模型:構建拓撲結構圖,對詞句進行排序。例如,TextRank/LexRank 基於潛
原创 5、分詞算法
1、正向最大匹配:已有字典,最長詞長度爲m,判斷當前位置i到i+m中存在的最長的詞 2、反向最大匹配:相反 3、雙向最大匹配:正向和逆向同時進行,取效果最好的,效果最好的評價標準是:分詞結果詞的數量少,單個字少 4、HMM分詞。自己之前寫
原创 pcnn關係抽取論文閱讀總結:儘量細節表現出來
目的之類的就不用說了,直接說pcnn做實體關係抽取的過程: 1、把輸入轉換成對應的向量: 上面的輸入是 I hired Kojo Annan,the son of Kofi Annan,in the company。
原创 igit使用防掉坑指南
1、下載安裝,網絡差的話就會失敗,一般就是下載超時什麼的,之前說過解決辦法,但這裏建議找個好點的網絡就ok,安裝步驟隨便找個勾勾選項就ok,影響不大 2、下面儘量超級詳細點: 1、啓動:隨便找個空地方右鍵點擊Git Bas
原创 Lattice LSTM
Lattice LSTM 由於中文的實體一般都是由詞語組成的,所以分詞與NER在中文領域具有很強的相關性,一般操作是先分詞,再做詞序列標註。很明顯的,分詞錯誤會導致ner的錯誤,尤其在開放領域,跨領域分詞仍然是一個難題。 簡單來說Latt
原创 BiLSTM+CRF code
開始擼代碼: 1.先定義參數, batch_size:64 epoch:40 hidden_dim:300 learning_rate:0.001 d
原创 雙層LSTM+CRF做實體識別,詳細過程,看不懂我自罰三杯!!!
BiLSTM+CRF: 如果看了之後還看不懂,我自罰三杯!!! 參考的是國外一個很好的博客,原文鏈接:https://createmomo.github.io/2017/12/06/CRF-Layer-on-the-Top-of-BiLS
原创 損失函數
1、0-1損失:你不=我,就是1;你=我,就是0 2、感知損失:在1的基礎上設定一個閾值 3、hinge 損失:max{0, 1 - 你*我},說是能解決SVM問題中幾何間隔最大化問題 4、交叉熵:-疊加(你*log我),就是求相對熵的公
原创 adam算法相關知識
學習鏈接:https://blog.csdn.net/Solo95/article/details/84842144 1、指數加權平均: 2、使用動量的梯度下降: 3、RMSprop算法: 4、Ada
原创 java調用文本分類textrnn模型,勿踩坑
直接貼代碼 # 將模型保存爲可用於線上服務的文件(一個.pb文件,一個variables文件夾) # print('Exporting trained model to', save_dir) builder = tf.saved_mo
原创 Windows python3.5版本,無CUDA下pip安裝pytorch,防掉坑
1、進入PyTorch的官網:https://pytorch.org/get-started/locally/ 選擇你需要安裝的版本,Run this Command指的是cmd命令下運行的代碼,分別安裝torch和相應的深度學習庫,當
原创 java日常學習四:調用機器學習分類模型
// 下載模型 private static final SavedModelBundle modelBundle = SavedModelBundle.load(模型路徑,"serve"); // session private st
原创 java日常學習三:配置文件的讀取
格式: <root> <intent_pattern> <question intent="age" user="C">年[齡紀]|多大(?!面積)|歲</question> </int