原创 CRF簡單理解總結

條件隨機場(Conditional Random Fields, 以下簡稱CRF):是給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分佈模型,其特點是假設輸出隨機變量構成馬爾科夫隨機場。條件隨機場是一種判別式模型 CRF的作用:簡

原创 mac版idea快捷鍵

Compile and Run(編譯和運行) 按鍵    說明 Command + F9    編譯Project Command + Shift + F9    編譯選擇的文件、包或模塊 Control + Option + R    

原创 KMP算法python代碼

問題:給定兩個字符串a="sdfaabcddsdfssd",b="df"找出字串b在a中的下標位置。 樸素模式匹配算法: def str_index(a,b,pos=0): i = pos j = 0 while

原创 python實現基於最小堆的topk

class MyTopK: def topK(self,k: int, nums: list): heap = self.buidHeap(nums[0:k]) for i in range(k,

原创 機器學習中數據清洗和特徵選擇總結

一.數據清洗 1.預處理:理解數據及數據特徵(很重要) 2.異常樣本數據: 將時間、日期、數值等轉爲統一格式 去除文本中不需要的特殊字符等 去除內容與字段不對應的情況,如:字段爲性別,描述爲姓名 數據去重 替換不合理值 覈驗多數據源數據

原创 機器學習中各種熵

原文鏈接:https://www.jianshu.com/p/7571d6ce1b1d 本文的目錄組織如下: 【1】自信息 【2】熵(香農熵) 【3】聯合熵 【4】條件熵 【5】互信息(信息增益

原创 Mac下 Navicat Premium 12.1 版本破解

注:必須離線激活 https://blog.csdn.net/wangyaodong915/article/details/82958372#commentsedit

原创 模型優化總結

模型準確率提高: 1.從數據上做優化:收集更多訓練數據,對數據分詞,字向量、詞向量的嵌入,對抗損失和虛擬對抗損失的加入等 2.從算法上做優化:1.神經元調節。2.數據訓練批次調節.3.dropout的加入。 模型訓練加速:通過隊列的方式讀

原创 基於互信息和左右熵的新詞發現

互信息可以計算聚合度,左右熵可以計算自由度 原文鏈接:https://www.jianshu.com/p/e9313fd692ef

原创 字典樹

Trie樹(字典樹) 方法介紹 1.1、什麼是Trie樹 Trie樹,即字典樹,又稱單詞查找樹或鍵樹,是一種樹形結構。典型應用是用於統計和排序大量的字符串(但不僅限於字符串),所以經常被搜索引擎系統用於文本詞頻統計。它的優點是最大限度地減

原创 推薦系統描述

一、常見的推薦算法原理(時間、位置影響) 目前常見的一些推薦如下: 基於內容推薦:分析用戶看過的內容(歷史內容等 )再進行推薦。 基於用戶的協同過濾推薦(UserCF):給用戶推薦和他興趣相似的其它用戶喜歡的物品。 基於物品的協同過濾推薦

原创 模型準確率提高及優化加速

https://www.cnblogs.com/mrxsc/articles/6266584.html

原创 transformer模型中的多頭attention機制

轉自:https://www.cnblogs.com/robert-dlut/p/8638283.html 《Attention is all you need》中提出了多頭attention機制,這篇論文主要亮點在於: 1)不同於以往主

原创 word2vec總結

本文參考: word2vec之簡歷霍夫曼樹:https://www.cnblogs.com/pinard/p/7160330.html word2vec之Hierarchical Softmax的模型:http://www.cnblogs

原创 gensim中word2vec的使用

https://www.cnblogs.com/pinard/p/7278324.html