原创 Bezout's Lemma 學習筆記

Bezout’s Lemma 學習筆記 今天手癢,就用 latex 寫了下 Bezout’s Lemma 的證明。 爲啥要用 latex 寫筆記?因爲寫起來非常爽,看着輸出結果非常爽。我就是個顏控。 參考 https://ar

原创 連續特徵離散化的一些理解

上學的時候,手寫 Naive Bayes,當時處理特徵非常 Naive 。就是直接去統計每一個出現的數值,計算一個這個值和標籤的相關出現概率。 結果總是下溢,效果就別想了。。。 連續特徵離散化,爲構造特徵和簡化模型帶來了一些好

原创 Hive Drop 外表,同時刪除數據

將外表的清除屬性設置爲 true 就可以在 drop 的時候清除外表的數據,無需手動刪除了。 ALTER TABLE addresses_text SET TBLPROPERTIES ('external.table.purge'

原创 Python list 與 array 的區別

個人理解 list 是一個高級封裝對象,存着每個對象的引用。 至於引用是啥類型,list 並不關心。list 只關心引用這一種類型就行了。 array 就和 c 語言裏面的數組是一樣的了。array 要求裏面儲存的數據類型必須一致

原创 【GraphSAGE 源碼學習】輸入的數據結構

最近在嘗試使用 GraphSAGE 做 embedding,做個筆記。 G 圖結構 文件:toy-ppi-G.json 數據通過 json 加載之後,得到一個 dict,其中包含的關鍵字:[‘nodes’, ‘directed’,

原创 NLTK train_unsupervised KeyError

trainer = HiddenMarkovModelTrainer(tag_set, list(symbols)) print('Training (unsupervised, %d sentences)...

原创 Step 3 of Backpropagation the size of z2 and Theta2'*delta3 are not equal.

https://www.coursera.org/learn/machine-learning/programming/AiHgN/neural-network-learning/discussions/threads/EObmU

原创 RuntimeWarning: overflow encountered in exp

今天在sigmoid 函數中使用 numpy.exp 的時候,遇到了 RuntimeWarning: overflow encountered in exp ,看到其他人的博客裏面的解決方法。 # https://www.cnbl

原创 scipy.sparse.dia_matrix 中的 offsets 含義

https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.dia_matrix.html dia_matrix((data, offsets), shape

原创 hadoop streaming 的兩種 key

參考:Hadoop Streaming 0.18 文檔 第一種 key,用來做 reducer 裏面的排序 -jobconf stream.map.output.field.separator=. \ -jobconf

原创 awk 把某列中包含一個特定開頭的列輸出

cat * | awk -F';' '{for (i=1;i<=NF;i++){if ($i ~/haha/) {print $i}}}'| sort | uniq 每列以 ; 分隔 以 haha 開頭的列會被輸出 然後排列 然後去

原创 mac + vim + vimtex + latexmk + zathura = 神器

之前因爲 tex 編譯比較繁瑣,所以就改用 markdown 寫文檔。但是,使用 markdown 還是不能給我那種“隨心所欲”的書寫體驗。 最近看到了一個 blog https://castel.dev/post/lecture-

原创 對公鑰、私鑰,以及通信雙方角色的猜想

大學時候學過密碼學,划水太嚴重。。。 最近仔細思考了一下我和 github 的通過過程,同時結合對加密、解密算法的理解,我覺得通信雙方的角色應該是這樣的: github: github 每天都會接收非常多信息,如果是我的用戶名發過去的

原创 Viterbi 算法學習(附代碼和註解)

詳細代碼: https://github.com/SunnyCat2013/viterbi-algorithm 研二在語音識別課上寫過一次 viterbi 算法。最近在複習 HMM 的時候,感覺記不太清楚 viterbi 的實現了,就

原创 不看手機的 20 個小時

今天做了個實驗,從昨天晚上 11 點到今天晚上 7 點,我沒有碰手機、沒有看郵箱。 大體看了看講 Naive Bayes/Hmm/MEM/CRF 的論文,參加了 leetcode 的周賽(做了四個題),重寫了 viterbi 算法,寫