原创 Bezout's Lemma 學習筆記
Bezout’s Lemma 學習筆記 今天手癢,就用 latex 寫了下 Bezout’s Lemma 的證明。 爲啥要用 latex 寫筆記?因爲寫起來非常爽,看着輸出結果非常爽。我就是個顏控。 參考 https://ar
原创 連續特徵離散化的一些理解
上學的時候,手寫 Naive Bayes,當時處理特徵非常 Naive 。就是直接去統計每一個出現的數值,計算一個這個值和標籤的相關出現概率。 結果總是下溢,效果就別想了。。。 連續特徵離散化,爲構造特徵和簡化模型帶來了一些好
原创 Hive Drop 外表,同時刪除數據
將外表的清除屬性設置爲 true 就可以在 drop 的時候清除外表的數據,無需手動刪除了。 ALTER TABLE addresses_text SET TBLPROPERTIES ('external.table.purge'
原创 Python list 與 array 的區別
個人理解 list 是一個高級封裝對象,存着每個對象的引用。 至於引用是啥類型,list 並不關心。list 只關心引用這一種類型就行了。 array 就和 c 語言裏面的數組是一樣的了。array 要求裏面儲存的數據類型必須一致
原创 【GraphSAGE 源碼學習】輸入的數據結構
最近在嘗試使用 GraphSAGE 做 embedding,做個筆記。 G 圖結構 文件:toy-ppi-G.json 數據通過 json 加載之後,得到一個 dict,其中包含的關鍵字:[‘nodes’, ‘directed’,
原创 NLTK train_unsupervised KeyError
trainer = HiddenMarkovModelTrainer(tag_set, list(symbols)) print('Training (unsupervised, %d sentences)...
原创 Step 3 of Backpropagation the size of z2 and Theta2'*delta3 are not equal.
https://www.coursera.org/learn/machine-learning/programming/AiHgN/neural-network-learning/discussions/threads/EObmU
原创 RuntimeWarning: overflow encountered in exp
今天在sigmoid 函數中使用 numpy.exp 的時候,遇到了 RuntimeWarning: overflow encountered in exp ,看到其他人的博客裏面的解決方法。 # https://www.cnbl
原创 scipy.sparse.dia_matrix 中的 offsets 含義
https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.dia_matrix.html dia_matrix((data, offsets), shape
原创 hadoop streaming 的兩種 key
參考:Hadoop Streaming 0.18 文檔 第一種 key,用來做 reducer 裏面的排序 -jobconf stream.map.output.field.separator=. \ -jobconf
原创 awk 把某列中包含一個特定開頭的列輸出
cat * | awk -F';' '{for (i=1;i<=NF;i++){if ($i ~/haha/) {print $i}}}'| sort | uniq 每列以 ; 分隔 以 haha 開頭的列會被輸出 然後排列 然後去
原创 mac + vim + vimtex + latexmk + zathura = 神器
之前因爲 tex 編譯比較繁瑣,所以就改用 markdown 寫文檔。但是,使用 markdown 還是不能給我那種“隨心所欲”的書寫體驗。 最近看到了一個 blog https://castel.dev/post/lecture-
原创 對公鑰、私鑰,以及通信雙方角色的猜想
大學時候學過密碼學,划水太嚴重。。。 最近仔細思考了一下我和 github 的通過過程,同時結合對加密、解密算法的理解,我覺得通信雙方的角色應該是這樣的: github: github 每天都會接收非常多信息,如果是我的用戶名發過去的
原创 Viterbi 算法學習(附代碼和註解)
詳細代碼: https://github.com/SunnyCat2013/viterbi-algorithm 研二在語音識別課上寫過一次 viterbi 算法。最近在複習 HMM 的時候,感覺記不太清楚 viterbi 的實現了,就
原创 不看手機的 20 個小時
今天做了個實驗,從昨天晚上 11 點到今天晚上 7 點,我沒有碰手機、沒有看郵箱。 大體看了看講 Naive Bayes/Hmm/MEM/CRF 的論文,參加了 leetcode 的周賽(做了四個題),重寫了 viterbi 算法,寫