原创 【NLP】【六】gensim之doc2vec 原

【一】總述 doc2vec是指將句子、段落或者文章使用向量來表示,這樣可以方便的計算句子、文章、段落的相似度。 【二】使用方法介紹 1. 預料準備 def read_corpus(fname, tokens_only=False):

原创 【NLP】【五】gensim之Word2Vec 原

【一】整體流程綜述 gensim底層封裝了Google的Word2Vec的c接口,藉此實現了word2vec。使用gensim接口非常方便,整體流程如下: 1. 數據預處理(分詞後的數據) 2. 數據讀取 3.模型定義與訓練 4.模型保存與

原创 【NLP】【七】fasttext源碼解析 原

【一】關於fasttext fasttext是Facebook開源的一個工具包,用於詞向量訓練和文本分類。該工具包使用C++11編寫,全部使用C++11 STL(這裏主要是thread庫),不依賴任何第三方庫。具體使用方法見:https:/

原创 【TensorFlow源碼系列】【二】DirectSession::Run 原

DirectSession::Run // 1. 依據feed/fetch/full_graph來創建一個executor,負責圖的運行 GetOrCreateExecutors CreateExecutors //

原创 【NLP】【一】中文分詞之jieba 原

聲明:本文參考jieba官方文檔而成,官方鏈接:https://github.com/fxsjy/jieba 【一】jieba安裝 pip install jieba 【二】jieba簡介 簡介可見jieba官方說明:https://pyp