原创 深度學習筆記(四):循環神經網絡的概念,結構和代碼註釋

深度學習筆記(一):logistic分類 深度學習筆記(二):簡單神經網絡,後向傳播算法及實現 深度學習筆記(三):激活函數和損失函數 深度學習筆記:優化方法總結(BGD,SGD,Momentum,AdaGrad,RMSPr

原创 搭建linux下的深度學習開發環境

最近越來越感覺到在win下開發簡直渾身難受,各種lib需要逐個下載安裝不說,到現在乾脆在win下跑不起來了。無奈,只能打算轉戰linux平臺。在搭建環境過程中碰到了各種問題,因此把碰到的一些問題及其解決方法寫下來作爲備忘。 1.

原创 語義分析的一些方法(二)

本文轉自這裏 2 文本語義分析 前面講到一些文本基本處理方法。一個文本串,對其進行分詞和重要性打分後(當然還有更多的文本處理任務),就可以開始更高層的語義分析任務。 2.1 Topic Model 首先介紹主題模型。說到主題模型,

原创 深度學習筆記(一):logistic分類

深度學習筆記(一):logistic分類 深度學習筆記(二):簡單神經網絡,後向傳播算法及實現 深度學習筆記(三):激活函數和損失函數 深度學習筆記:優化方法總結(BGD,SGD,Momentum,AdaGrad,RMSPr

原创 自己動手寫word2vec (二):統計詞頻

系列所有帖子 自己動手寫word2vec (一):主要概念和流程 自己動手寫word2vec (二):統計詞頻 自己動手寫word2vec (三):構建Huffman樹 自己動手寫word2vec (四):CBOW和s

原创 深度學習筆記(二):簡單神經網絡,後向傳播算法及實現

深度學習筆記(一):logistic分類 深度學習筆記(二):簡單神經網絡,後向傳播算法及實現 深度學習筆記(三):激活函數和損失函數 深度學習筆記:優化方法總結(BGD,SGD,Momentum,AdaGrad,RMSPr

原创 自己動手寫word2vec (一):主要概念和流程

word2vec 是 Google 於 2013 年開源推出的一個用於獲取詞向量(word vector)的工具包,它簡單、高效,因此引起了很多人的關注。我在看了@peghoty所寫的《word2vec中的數學以後》(個人覺得這是

原创 語義分析的一些方法(一)

原文轉自這裏 語義分析,本文指運用各種機器學習方法,挖掘與學習文本、圖片等的深層次概念。 wikipedia上的解釋:In machine learning, semantic analysis of a corpus is t

原创 gensim使用方法以及例子

gensim是一個python的自然語言處理庫,能夠將文檔根據TF-IDF, LDA, LSI 等模型轉化成向量模式,以便進行進一步的處理。此外,gensim還實現了word2vec功能,能夠將單詞轉化爲詞向量。關於詞向量的知識可

原创 深度學習筆記(三):激活函數和損失函數

深度學習筆記(一):logistic分類 深度學習筆記(二):簡單神經網絡,後向傳播算法及實現 深度學習筆記(三):激活函數和損失函數 深度學習筆記:優化方法總結(BGD,SGD,Momentum,AdaGrad,RMSPr

原创 自己動手寫word2vec (四):CBOW和skip-gram模型

系列所有帖子 自己動手寫word2vec (一):主要概念和流程 自己動手寫word2vec (二):統計詞頻 自己動手寫word2vec (三):構建Huffman樹 自己動手寫word2vec (四):CBOW和s

原创 linux下各數據庫安裝及相關知識

這一部分主要講mysql , mongodb 和 redis的安裝和相關操作。這三個在我的程序中都有用到,分別代表了關係型數據庫,非關係型數據庫,內存key-value數據庫 1. MySQL 1.1 安裝 $ sudo a

原创 使用gensim和sklearn搭建一個文本分類器(一):流程概述

總的來講,一個完整的文本分類器主要由兩個階段,或者說兩個部分組成:一是將文本向量化,將一個字符串轉化成向量形式;二是傳統的分類器,包括線性分類器,SVM, 神經網絡分類器等等。 之前看的THUCTC的技術棧是使用 tf-idf 來

原创 使用gensim和sklearn搭建一個文本分類器(二):代碼和註釋

在之前的 使用gensim和sklearn搭建一個文本分類器(一):流程概述 中,敘述了一個使用lsi來對文本進行向量化,再使用線性核svm進行分類的文本分類器。在這篇文章中,沿着之前的思路,提供了該文本分類器的具體實現。該分類器

原创 對希拉里泄露郵件進行簡單分析的結果

這次爆出的郵件門十分勁爆啊,不過看了看郵件內容,如果進行NLP處理的話太過繁雜,所以選擇了對收發郵箱間的關係進行簡單分析。原文發在知乎上,這裏就直接搬過來了。分析的代碼放在github上 1.首先來看收發郵件數 在6000封郵件中