原创 基於gibbsLDA的文本分類

之前幾篇文章講到了文檔主題模型,但是畢竟我的首要任務還是做分類任務,而涉及主題模型的原因主要是用於text representation,因爲考慮到Topic Model能夠明顯將文檔向量降低維度,當然TopicModel可以做比這更多

原创 深度學習之四:使用Theano編寫神經網絡

上一篇說到windows下面的Theano安裝,在前面的文章中也介紹了幾種常見的神經網絡形式,今天就使用Theano來編寫一個簡單的神經網絡   我把Theano形容成一個模子,這個模子提供了一些計算方法,然後我們只需要定義模子的形

原创 AutoML之NAS

前言 autoML最近非常火熱,在調參、特徵選擇等方面都有了不少的進展,與其同時,在深度網絡日益複雜化的今天,如何爲任務設計合適的網絡結構成了每位煉丹工程師的日常,而在缺乏先驗知識的情況下,調整網絡結構往往需要較長的時間和精力,如

原创 深度學習之二:CNN推導

前面看過了CNN的基本結構,經典的模式如下圖:   上圖經典的CNN模型主要可以概括爲三個部分: convolution層:convolution是將原來的輸入向量映射成多個feature map,每個feature map的權

原创 神經網絡更新參數的幾種方法

梯度下降中,計算完各個參數的導數之後就需要更新參數值了,最常用的更新參數方法就是:   【SGD】: x += - learning_rate * dx    但是這種方法收斂速度非常慢,其實除了這個更新參數的方法,還有很多的

原创 深度學習之五:使用GPU加速神經網絡的訓練

使用神經網絡訓練,一個最大的問題就是訓練速度的問題,特別是對於深度學習而言,過多的參數會消耗很多的時間,在神經網絡訓練過程中,運算最多的是關於矩陣的運算,這個時候就正好用到了GPU,GPU本來是用來處理圖形的,但是因爲其處理矩陣計算的高

原创 Understanding LSTM Networks

Recurrent Neural Networks Humans don’t start their thinking from scratch every second. As you read this essay, you un

原创 windows下安裝theano

最近在學習深度學習的一些內容,需要用到深度學習的庫:theano。但是theano這玩意在Linux或者mac OS 下面比較好安裝,只需要先裝Anaconda然後使用Python的安裝命令符,pip install theano即可

原创 coreNLP的使用

最近考慮做些英文詞語詞幹化的工作,聽說coreNLP這個工具不錯,就拿來用了。 coreNLP是斯坦福大學開發的一套關於自然語言處理的工具(toolbox),使用簡單功能強大,有;命名實體識別、詞性標註、詞語詞幹化、語句語法樹的構造還

原创 將博客搬至CSDN

新博客地址 http://blog.csdn.net/u010223750 歡迎關注 點贊 收藏 分享 文章舉報 luchi007

原创 本文建模系列值三:LDA感悟

LDA:Latent Dirichlet Allocation 是一個很著名的文本模型,最初是在2003年被一羣大牛提出的,包括David M.Blei 、Andrew Y.Ng等。和之前的pLSA文本模型相比,LDA算是貝葉斯觀點的pL

原创 RTB競價策略學習

背景 近一年的工作基本是圍繞着廣告ctr/cvr模型優化展開的,但是對競價廣告整體框架還是缺乏瞭解,最近準備學習一下RTB相關的內容,筆記主要圍繞着Display Advertising with Real-Time Biddin

原创 文本建模系列之一:LSA

俗話說“廟小妖風大,水淺王八多”,作爲一名自然語言處理的水貨研究生,通常只是對論文有着一知半解的瞭解,然而因爲畢竟人老了年紀大容易忘事,有時候還是想把這一知半解的想法用文字寫出來,以便之後回顧,看官勿噴,水貨要開始動筆了。   文本

原创 java版本的神經網絡——開源框架JOONE實踐

由於實驗室事情緣故,需要將Python寫的神經網絡轉成Java版本的,但是python中的numpy等啥包也不知道在Java裏面對應的是什麼工具,所以索性直接尋找一個現成可用的Java神經網絡框架,於是就找到了JOONE,JOONE是一

原创 RTB競價流控-budget pacing

前言 前一篇寫了關係rtb bidding stragegy的相關內容,這一篇主要介紹的是RTB競價中的流控策略:budget pacing,主要內容是讓廣告主預算平穩花完,防止出現預算突然花完這種情況。[注:本筆記主要圍繞着Di