原创 文本預處理_詞頻計算_ngram
- 中文文本的預處理 在處理文本時,由於存在各種不可預知的詞,所以只進行我們所關心字符的處理。 參考: https://www.jianshu.com/p/093ec1eeccff def filter_word(sentenc
原创 tfidf_特徵選擇_互信息_
- tfidf原理,特徵篩選 參考: https://www.jianshu.com/p/9b2eb69ab735 tiidf選擇值更高的詞作爲句子的表達(作爲特徵),進而做分類任務或者相關度排序任務。那麼值是什麼值呢?tfidf其實是t
原创 attention_9
作業鏈接; https://shimo.im/docs/KivfbK9TUHgCqg9b/ 參考: https://blog.csdn.net/qq_41664845/article/details/84969266 LSTM雖然能夠減少
原创 神經網絡基礎&fasttext
作業: https://shimo.im/docs/Ger2yvth3180SEkL 前饋神經網絡,是由輸入層,隱藏層,輸出層組成。 參考: https://blog.csdn.net/u010089444/article/details
原创 beyes_svm_lda文本分類
參考: https://blog.csdn.net/u013710265/article/details/72780520 - 貝葉斯 簡要來說,貝葉斯是在先驗概率和條件概率的基礎上,得到後驗概率。而先驗概率可能是選擇了多項式,伯努利或者
原创 卷積神經網絡_7
任務鏈接: https://shimo.im/docs/RFlP7snWLoQ0ejMU 參考: https://blog.csdn.net/sherpahu/article/details/90484459 https://blog.c
原创 word2vec學習...
第一次認真看..依然有很多看不懂,寫一些當下的學習總結。 參考: https://blog.csdn.net/itplus/article/details/37998797 基本的網絡結構是輸入層+投影層+隱藏層+輸出層。 主要爲:1.
原创 循環和遞歸神經網絡_8
作業: https://shimo.im/docs/3AB1IwSkwBwZlbMY 參考: https://blog.csdn.net/roger_royer/article/details/90552633#_2 https://
原创 BERT理論學習_10
https://mp.weixin.qq.com/s/FHDpx2cYYh9GZsa5nChi4g https://www.cnblogs.com/d0main/p/10165671.html ELMO由雙向LSTM作爲特徵獲取器,最後得
原创 分類模型_數據整理
1- make_classification 構造虛擬數據集,主要通過n_samples,n_features, n_classes,weights來進行構建,後期可能會使用到n_redunant和n_informative等進行特徵之間
原创 ngram 求句子概率(平滑)
ngram平滑主要解決在當前gram下,詞表中沒有出現該詞的情況(不能使用想當然的詞頻0). Sen=一個 傻子 走 在 大陸 上 p(sen)=p(一個|start)p(傻子|一個)p(走|一個,傻子)*p(在|傻子,走)… 求
原创 xgboost總結
參考:https://blog.csdn.net/xiu351084315/article/details/89192983 算法原理 xgboost是在gbdt的基礎上做了一些優化。 gbdt是基於CART的集成算法,使用迴歸樹,可
原创 gbdt
參考:https://www.cnblogs.com/pinard/p/6140514.html 前向分佈算法 就是一步一步計算每個弱學習器的參數的思想,和boosting相同。 負梯度擬合 負梯度擬合就是在某個弱學習器得到的結果和真
原创 隨機森林算法梳理
參考:https://www.cnblogs.com/pinard/p/6131423.html 集成學習 集成學習面對的是一個強學習器,由多個個題學習器,通過一定的策略組合而成。 個體學習器 分爲兩種: 同質學習器(同類算法
原创 雙系統ubuntu+ros indigo安裝
總在變,沒辦法,學。 來北京3個月了,那會我連普通的裝系統都不會...現在經歷了平均一兩週的重裝系統,真的跟喝水似的了。虛擬機也裝過了,昨天裝了雙系統ubuntu。也裝了ros,寫一點心得。 1.使用easyBCD來裝雙系統,第一次看的一