原创 防止過擬合和欠擬合的方法

防止過擬合 Early stop。增加驗證集,驗證集性能沒有明顯提升的時候停止。 增大數據集。常見的是增加一些噪聲構造新樣本,重採樣,從源頭採集,以及分析數據分佈構造更多假數據。 正則化。爲了降低模型複雜度,避免過分擬合訓練數據,包括噪聲

原创 Batch Normalization的前向和反向傳播過程

爲什麼要batch normalization? 前向傳播 反向傳播 1.batch normalization的原理   在反向傳播的過程中,是一個w不斷疊乘的結果,因爲在傳播過程中w時一個不確定範圍的數值。在反向傳播的過程

原创 Attention is All you Need Transformer模型簡記

參考了:https://www.jianshu.com/p/ef41302edeef?utm_source=oschina-app 文章要點: 達到了new state of art。 用transformer模型代替傳統的lstm/rn

原创 leetcode hard 10. 正則表達式匹配

https://leetcode-cn.com/problems/regular-expression-matching/ 思路:動態規劃 dp:(len(s) +1)* (len(p) + 1) dp[ii][jj]代表s[0,i-1]

原创 leetcode 23. 合併K個排序鏈表

class Solution(object): def adjust_to_min_heap(self, arr, i, end): while i < end: l = 2 * i +

原创 PageRank原理及其文本摘要提取中的應用

PageRank原理: 被更多網頁鏈接的網頁排名應該靠前。 被排名靠前的網頁鏈接的網頁重要性也應該提升。 一個網頁的排名等於所有鏈接到該網頁的網頁的加權排名之和。 映射到文本領域: 網頁內容 能和更多句子中的詞相似的句子重要性大。 令W

原创 gensim + tfidf計算句子之間相似度

def get_tfidf(words_lists): texts = words_lists dictionary = corpora.Dictionary(texts) feature_cnt = len(d

原创 similarities.SparseMatrixSimilarity源碼解析

def __init__(self, corpus, num_features=None, num_terms=None, num_docs=None, num_nnz=None, num_be

原创 leetcode best time to buy and sell stock 股票問題合集

121. 買賣股票的最佳時機 https://leetcode-cn.com/problems/best-time-to-buy-and-sell-stock/ 122. 買賣股票的最佳時機 II https://leetcode-

原创 leetcode combination-sum題集

39. 組合總和 https://leetcode-cn.com/problems/combination-sum/ 40. 組合總和 II https://leetcode-cn.com/problems/combination-

原创 正則表達式

這是我看到對於python正則解釋最透徹的博客,https://cuiqingcai.com/977.html。 在此只總結方便記憶,侵權請告知。 re.match:從開頭判斷是否匹配,需要.group()。 re.search:從所有地

原创 隱馬爾可夫模型(HMM)詳解

寫在前面:最近在看這位“血影雪夢”博主對HMM的理解,博客寫得非常好,獻上鍊接。在此不重複造輪子,只爲個人記憶撰寫以下內容。 https://blog.csdn.net/xueyingxue001/article/details/5143

原创 linux系統刪除滿足特定條件的文件

刪除文件夾中文件名含有“badcase”的文件: 首先找到這些文件 然後加刪除命令 xargs代表把前面的當作後面命令的輸出 find . -maxdepth 1  -regex ".*badcase.csv*"  find . -ma

原创 激活函數

激活函數的作用:將線性的神經網絡通過附加激活函數可以逼近任何非線性函數。 1.sigmoid(, ) 函數不關於原點中心對稱,收斂速度慢。 導數很容易接近0,造成梯度消失。 含有指數,計算量大。 2.tanh( )  關於原點中心對稱

原创 幾種排序算法思路簡記

1.選擇排序 每次選出最小值與第i位交換。 2.插入排序 每次當做前面有序往裏面插入,插入的方式爲從後往前冒泡。 3.冒泡排序(及改進) 勝者爲王,相鄰兩兩pk,每次都把最值送到最後。 改進:設置flag,若發現本次沒有元素交換過,則跳出