原创 文本預處理_詞頻計算_ngram

- 中文文本的預處理 在處理文本時,由於存在各種不可預知的詞,所以只進行我們所關心字符的處理。 參考: https://www.jianshu.com/p/093ec1eeccff   def filter_word(sentenc

原创 tfidf_特徵選擇_互信息_

- tfidf原理,特徵篩選 參考: https://www.jianshu.com/p/9b2eb69ab735 tiidf選擇值更高的詞作爲句子的表達(作爲特徵),進而做分類任務或者相關度排序任務。那麼值是什麼值呢?tfidf其實是t

原创 attention_9

作業鏈接; https://shimo.im/docs/KivfbK9TUHgCqg9b/ 參考: https://blog.csdn.net/qq_41664845/article/details/84969266 LSTM雖然能夠減少

原创 神經網絡基礎&fasttext

作業: https://shimo.im/docs/Ger2yvth3180SEkL 前饋神經網絡,是由輸入層,隱藏層,輸出層組成。 參考: https://blog.csdn.net/u010089444/article/details

原创 beyes_svm_lda文本分類

參考: https://blog.csdn.net/u013710265/article/details/72780520 - 貝葉斯 簡要來說,貝葉斯是在先驗概率和條件概率的基礎上,得到後驗概率。而先驗概率可能是選擇了多項式,伯努利或者

原创 卷積神經網絡_7

任務鏈接: https://shimo.im/docs/RFlP7snWLoQ0ejMU 參考: https://blog.csdn.net/sherpahu/article/details/90484459 https://blog.c

原创 word2vec學習...

第一次認真看..依然有很多看不懂,寫一些當下的學習總結。 參考: https://blog.csdn.net/itplus/article/details/37998797 基本的網絡結構是輸入層+投影層+隱藏層+輸出層。 主要爲:1.

原创 循環和遞歸神經網絡_8

作業: https://shimo.im/docs/3AB1IwSkwBwZlbMY   參考: https://blog.csdn.net/roger_royer/article/details/90552633#_2 https://

原创 BERT理論學習_10

https://mp.weixin.qq.com/s/FHDpx2cYYh9GZsa5nChi4g https://www.cnblogs.com/d0main/p/10165671.html ELMO由雙向LSTM作爲特徵獲取器,最後得

原创 分類模型_數據整理

1- make_classification 構造虛擬數據集,主要通過n_samples,n_features, n_classes,weights來進行構建,後期可能會使用到n_redunant和n_informative等進行特徵之間

原创 ngram 求句子概率(平滑)

ngram平滑主要解決在當前gram下,詞表中沒有出現該詞的情況(不能使用想當然的詞頻0).   Sen=一個 傻子 走 在 大陸 上 p(sen)=p(一個|start)p(傻子|一個)p(走|一個,傻子)*p(在|傻子,走)…   求

原创 xgboost總結

參考:https://blog.csdn.net/xiu351084315/article/details/89192983 算法原理 xgboost是在gbdt的基礎上做了一些優化。 gbdt是基於CART的集成算法,使用迴歸樹,可

原创 gbdt

參考:https://www.cnblogs.com/pinard/p/6140514.html 前向分佈算法 就是一步一步計算每個弱學習器的參數的思想,和boosting相同。 負梯度擬合 負梯度擬合就是在某個弱學習器得到的結果和真

原创 隨機森林算法梳理

參考:https://www.cnblogs.com/pinard/p/6131423.html 集成學習 集成學習面對的是一個強學習器,由多個個題學習器,通過一定的策略組合而成。 個體學習器 分爲兩種: 同質學習器(同類算法

原创 雙系統ubuntu+ros indigo安裝

總在變,沒辦法,學。 來北京3個月了,那會我連普通的裝系統都不會...現在經歷了平均一兩週的重裝系統,真的跟喝水似的了。虛擬機也裝過了,昨天裝了雙系統ubuntu。也裝了ros,寫一點心得。 1.使用easyBCD來裝雙系統,第一次看的一