原创 結巴分詞1.8.2版本源代碼解析(一)

概要說明:結巴分詞是基於python的開源分詞工具。在其根目錄下的結構爲 . |--analyse |--finalseg |--posseg |-

原创 人民日報語料庫抓取python實現(二)--多線程

由於有大量的IO,多線程可以提高爬取的效率。出於不同隊列存儲不同url和對於爬蟲進行分工的初衷,這裏實現了兩個隊列shareMonthQueue和shareReportQueue。其中shareMonthQueue存儲所有月份初始url和

原创 結巴分詞源代碼解析(二)

本篇分兩部分,一、補充說明動態規劃求最大概率路徑的過程;二、使用viterbi算法處理未登錄詞。 一、動態規劃求最大概率路徑補充從全模式中看出一句話有多種劃分方式,那麼哪一種是好的劃分方式,最大概率路徑認

原创 人民日報語料庫抓取python實現

最近需要抓取語料庫,在一個NLP的論壇上看到有人民日報的1946到2003的所有資料。準備把這些資料抓取下來(雖然有點老了,但是聊勝於無,哪位高人知道更好的來源請告知)。程序是用python寫的,主要用到bs4解析模塊。由於是新手沒有使用

原创 HMM模型之viterbi算法

1、前言 viterbi算法是HMM模型的三大算法之一。HMM模型解決三大問題:評估、解碼和學習。viterbi用於解決解碼問題,在自然語言處理中用於解決劃分問題,分詞是對於句子的劃分,viterbi是很好的分詞算法。推

原创 ubuntu下安裝anaconda

1、 到官網http://continuum.io/downloads下載anaconda。 選擇linux64-bit-python2.7 2、 安裝anaconda,在終端輸入:cd ~/Downloads;bas

原创 python 提高效率的幾個小技巧

1.1. 最常見 一個最常見的速度陷坑(至少是俺在沒看到網上這篇介紹時陷進去 過好些次的) 是: 許多短字串併成長字串時, 大家通常會用: Toggle line numbers    1 shortStrs = [ str0, str1

原创 HMM模型之前向算法

1、介紹 前向算法是用於HMM模型的評估問題。評估問題:對於一個觀察序列和通過不同系統得到的HMM模型,怎麼判斷哪一個HMM模型是最有可能產生這個觀察序列。 HMM模型三元組(π ,A,B),其中π 表

原创 理解卷及神經網絡應用在自然語言處理的學習筆記

博客地址:http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/ 首先申明本人的英語很搓,看英文非常吃力,只能用這種笨辦法來方