原创 How to Fine-Tune BERT for Text Classification 論文筆記
How to Fine-Tune BERT for Text Classification 論文筆記 論文地址:How to Fine-Tune BERT for Text Classification? BERT在NLP任務中效
原创 使用NLTK對英文文章分句,避免縮略詞標點符號干擾
對於英文語料,我們想要獲得句子時,可以通過正則或者NLTK工具切分。例如,NLTK: from nltk.tokenize import sent_tokenize document='' sentences=sent_tokeniz
原创 一隻兔子幫你理解 kNN
導語:商業哲學家 Jim Rohn 說過一句話,“你,就是你最常接觸的五個人的平均。”那麼,在分析一個人時,我們不妨觀察和他最親密的幾個人。同理的,在判定一個未知事物時,可以觀察離它最近的幾個樣本,這就是 kNN(k最近鄰)的方法。作者:
原创 推薦系統入門
1. 推薦系統是什麼?推薦系統又叫個性化推薦系統,它會基於用戶行爲數據或物品數據,通過一定的算法,爲用戶推薦符合他需求的物品。試想一下這樣的場景,我們有一個電商網站,有數千萬種商品。有一天,進來了三個客人,A是電子產品發燒友,B是化妝品愛
原创 numpy.linalg.svd報錯memory error解決
U,Sigma,VT = la.svd(dataMat,False)我是200000*93的矩陣分解,報錯memory error,是由於U和VT過大查看文檔:numpy.linalg.svd(a, full_matrices=True,
原创 apache2.4+Django2+python3.5+Windows10配置環境
我用的是wamp,自帶apache2.4.23,python版本3.5,django2。apache和django的安裝可參考其他教程apache路徑:F:\wamp64\bin\apache\apache2.4.231.下載mod_ws
原创 scikit-learn中PCA的使用方法
@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/42192293在前一篇文章 主成分分析(PCA) 中,我基於python和numpy實現了PCA算法,
原创 奇異值分解(SVD)原理詳解及推導
轉載請聲明出處http://blog.csdn.net/zhongkejingwang/article/details/43053513 在網上看到有很多文章介紹SVD的,講的也都不錯,但是感覺還是有需要補充的,特別是關於矩陣和映射
原创 git連接華爲軟件開發雲
我用的是github客戶端的git shell 連接。用git bash也可以github客戶端下載地址:https://desktop.github.com/1.在華爲軟件開發雲上創建代碼倉庫2.在本地創建密鑰SSH密鑰幫助文檔公鑰是代
原创 Wikipedia corpus英文語料處理,獲得原文
我們在預訓練word vector或其他預訓練任務時,需要大量的語料數據,Wikipedia開放了英文語料,大約11G:wiki英文語料下載鏈接 該語料庫是.bz2格式,但是不能直接解壓,需要使用工具處理,我們介紹兩種常用的處理工具,ge
原创 windows下安裝使用fairseq框架
最近,Facebook又開源了fairseq的PyTorch版:fairseq-py。大家從最新的文章可以看出,用CNN來做機器翻譯,達到頂尖的準確率,速度則是RNN的9倍;同時,Facebook還開放了seq2seq學習工具包fairs
原创 Attention Is All You Need 論文筆記
Attention Is All You Need 論文筆記 文章目錄Attention Is All You Need 論文筆記背景Tansformer模型簡介Attention & Self-Attetion論文細節Attent
原创 QANet 論文筆記
QANet 論文筆記 文章目錄QANet 論文筆記摘要簡介模型1. Input embedding layerword embeddingcharacter embedding2. Embedding encoder layer(1
原创 unable to execute 'x86_64-conda_cos6-linux-gnu-gcc': No such file or directory 問題解決
在linux上(python3)安裝fasttext時,遇到以下編譯錯誤: unable to execute 'x86_64-conda_cos6-linux-gnu-gcc': No such file or directory e
原创 分解機(Factorization Machines)推薦算法原理
對於分解機(Factorization Machines,FM)推薦算法原理,本來想自己單獨寫一篇的。但是看到peghoty寫的FM不光簡單易懂,而且排版也非常好,因此轉載過來,自己就不再單獨寫FM了。