原创 How to Fine-Tune BERT for Text Classification 論文筆記

How to Fine-Tune BERT for Text Classification 論文筆記 論文地址:How to Fine-Tune BERT for Text Classification? BERT在NLP任務中效

原创 使用NLTK對英文文章分句,避免縮略詞標點符號干擾

對於英文語料,我們想要獲得句子時,可以通過正則或者NLTK工具切分。例如,NLTK: from nltk.tokenize import sent_tokenize document='' sentences=sent_tokeniz

原创 一隻兔子幫你理解 kNN

導語:商業哲學家 Jim Rohn 說過一句話,“你,就是你最常接觸的五個人的平均。”那麼,在分析一個人時,我們不妨觀察和他最親密的幾個人。同理的,在判定一個未知事物時,可以觀察離它最近的幾個樣本,這就是 kNN(k最近鄰)的方法。作者:

原创 推薦系統入門

1. 推薦系統是什麼?推薦系統又叫個性化推薦系統,它會基於用戶行爲數據或物品數據,通過一定的算法,爲用戶推薦符合他需求的物品。試想一下這樣的場景,我們有一個電商網站,有數千萬種商品。有一天,進來了三個客人,A是電子產品發燒友,B是化妝品愛

原创 numpy.linalg.svd報錯memory error解決

U,Sigma,VT = la.svd(dataMat,False)我是200000*93的矩陣分解,報錯memory error,是由於U和VT過大查看文檔:numpy.linalg.svd(a, full_matrices=True,

原创 apache2.4+Django2+python3.5+Windows10配置環境

我用的是wamp,自帶apache2.4.23,python版本3.5,django2。apache和django的安裝可參考其他教程apache路徑:F:\wamp64\bin\apache\apache2.4.231.下載mod_ws

原创 scikit-learn中PCA的使用方法

@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/42192293在前一篇文章 主成分分析(PCA) 中,我基於python和numpy實現了PCA算法,

原创 奇異值分解(SVD)原理詳解及推導

轉載請聲明出處http://blog.csdn.net/zhongkejingwang/article/details/43053513    在網上看到有很多文章介紹SVD的,講的也都不錯,但是感覺還是有需要補充的,特別是關於矩陣和映射

原创 git連接華爲軟件開發雲

我用的是github客戶端的git shell 連接。用git bash也可以github客戶端下載地址:https://desktop.github.com/1.在華爲軟件開發雲上創建代碼倉庫2.在本地創建密鑰SSH密鑰幫助文檔公鑰是代

原创 Wikipedia corpus英文語料處理,獲得原文

我們在預訓練word vector或其他預訓練任務時,需要大量的語料數據,Wikipedia開放了英文語料,大約11G:wiki英文語料下載鏈接 該語料庫是.bz2格式,但是不能直接解壓,需要使用工具處理,我們介紹兩種常用的處理工具,ge

原创 windows下安裝使用fairseq框架

最近,Facebook又開源了fairseq的PyTorch版:fairseq-py。大家從最新的文章可以看出,用CNN來做機器翻譯,達到頂尖的準確率,速度則是RNN的9倍;同時,Facebook還開放了seq2seq學習工具包fairs

原创 Attention Is All You Need 論文筆記

Attention Is All You Need 論文筆記 文章目錄Attention Is All You Need 論文筆記背景Tansformer模型簡介Attention & Self-Attetion論文細節Attent

原创 QANet 論文筆記

QANet 論文筆記 文章目錄QANet 論文筆記摘要簡介模型1. Input embedding layerword embeddingcharacter embedding2. Embedding encoder layer(1

原创 unable to execute 'x86_64-conda_cos6-linux-gnu-gcc': No such file or directory 問題解決

在linux上(python3)安裝fasttext時,遇到以下編譯錯誤: unable to execute 'x86_64-conda_cos6-linux-gnu-gcc': No such file or directory e

原创 分解機(Factorization Machines)推薦算法原理

  對於分解機(Factorization Machines,FM)推薦算法原理,本來想自己單獨寫一篇的。但是看到peghoty寫的FM不光簡單易懂,而且排版也非常好,因此轉載過來,自己就不再單獨寫FM了。