原创 RNN RNN LSTM Attention

RNN RNN 是一種利用神經網絡對序列模型的通用模型 利用歷史信息結合當前輸入進行預測 適合解決時間序列輸入輸出問題,對於 NLP 來說就是序列標註問題,這就是 NLP 中最常見的問題。 RNN 梯度消失問題。 RNN是可以實現長時間

原创 CNN CNN Basic Model CNN 模型常見的 Pooling 參考鏈接

CNN Basic Model 卷積層 由不同窗口大小的 Filter 構成 Filter 個數由自己決定,超參數。 同一個 Filter 參數共享,極大減少了參數個數。 因爲參數共享,所以一個 Filter 只能識別同一類特徵。一個 F

原创 jieba 分詞原理 基本原理 參考鏈接

基本原理 基於前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG); 用前綴字典實現了詞庫的存儲(即dict.txt文件中的內容),而棄用之前版本的trie樹存儲詞庫,想想也是,python中實現的tr

原创 Faiss Faiss核心算法實現 Faiss的核心原理 參考鏈接

Faiss核心算法實現 Faiss是FAIR出品的一個用於向量k-NN搜索的計算庫,其作用主要在保證高準確度的前提下大幅提升搜索速度。 Faiss 對一些基礎的算法提供了非常高效的實現。 聚類Faiss提供了一個高效的k-means實現

原创 Apriori 算法 問題引入 頻繁項集的評估標準 算法思想 算法流程 Aprior 算法總結 參考鏈接

問題引入 在常見的超市購物數據集,或者電商的網購數據集中,如果我們找到了頻繁出現的數據集,那麼對於超市,我們可以優化產品的位置擺放,對於電商,我們可以優化商品所在的倉庫位置,達到節約成本,增加經濟效益的目的。 Apriori 算法是常用的用

原创 PageRank PageRank PageRank 的隨機瀏覽模型 參考鏈接

PageRank 如果一個網頁被很多其他網頁所鏈接,說明它受到普遍的承認和信賴,那麼它的排名就高,這就是 PageRank 的核心思想。考慮權重因此,即網頁排名高的網站貢獻的鏈接權重大。 先假定所有網頁的排名是相同的,並且根據這個初始值,

原创 語言模型 一、語言模型定義 二、 馬爾科夫假設 三、高階語言模型 四、平滑技術 四、語言模型評估 五、神經語言模型 參考鏈接

一、語言模型定義 一個句子是否合理,就看它的可能性大小如何(概率)。 語言模型缺點 參數空間過大:條件概率P(wn|w1,w2,..,wn-1)的可能性太多,無法估算,不可能有用; 數據稀疏嚴重:對於非常多詞對的組合,在語料庫中都沒

原创 序列標註

序列標註可以理解爲給序列中的每一幀都進行分類任務,可以將這個序列用 CNN 或 RNN 進行編碼,接一個全連接層用 softmax 激活,即逐幀softmax,其缺點是並沒有直接考慮輸出層面的上下文關聯信息,而是把這些關聯放到編碼層面,希望

原创 pip 相關問題總結 如何查看 pip 安裝第三方對應的 python 版本位置

如何查看 pip 安裝第三方對應的 python 版本位置 pip --version 就能得到該pip所在的python路徑,即安裝到該路徑的python下

原创 文本情感分類 傳統模型——基於情感詞典 深度學習模型

傳統模型——基於情感詞典 輸入句子,預處理 文本分詞 訓練情感詞典(積極消極詞彙、否定詞、程度副詞等) 判斷規則(算法模型) 情感分類 文本預處理 使用正則表達式,過濾掉我們不需要的信息(如 Html 標籤等) 句子自動分詞 jieb

原创 貪心科技 NLP 課程分享 一、課程 二、獲取方式 三、聲明

一、課程 二、獲取方式 微信公衆號搜索: sugarcrazy 回覆:貪心科技NLP 三、聲明 資源來源於網絡,如有侵權,請聯繫我,立即刪除。

原创 深度學習目錄 Fasttext 模型

Fasttext 模型 實踐篇 https://www.jianshu.com/p/07a0b7a78d35

原创 Fasttext 模型 主要步驟 參考代碼 參考鏈接

主要步驟 創建 n-gram 字典集合 根據字典集合,將語料轉換爲數字序列 構建模型 模型訓練 參考代碼 import numpy as np from keras.preprocessing import sequence from

原创 技術積累 數學基礎 一、機器學習 二、十大算法 三、NLP 算法

數學基礎 MCMC 採樣 MCMC 採樣 一、機器學習 1、無監督學習 聚類 Kmeans 聚類 降維 PCA 理論 PCA、LDA 算法 二、十大算法 決策樹 決策樹模型 集成學習 SVM 算法 SVM 理論 EM 算法 EM 理

原创 Apriori 算法 Apriori 算法 Apriori 算法 算法效率問題

Apriori 算法 Apriori 算法是一個尋找關聯規則的算法,即從大規模數據中找到潛在的邏輯; 比如“條件A+條件B”很有可能推出“條件C”(A+B-->C),這就是一個關聯規則。 具體來講,比如客戶買了A商品後,往往會買B商品(反之