原创 Keras學習---RNN模型建立篇

本例子是“IMDB sentiment classification task”,用單層LSTM實現。 1. 輸入數據預處理 輸入文本數據統一規整到長度maxlen=80個單詞,爲什麼呢? 是不是長度太長時訓練容易發散掉,這樣就限制了

原创 python下讀sougou中文語料文件

下載的sougou中文語料文件是xml格式的,有1.5G,需要在python下進行正文的提取及中文分詞工作。 1. 首先,進行正文的提取,有幾個需要注意的細節。 a. 檢測文件的中文編碼 在python下安裝chardet包,使用ch

原创 Keras學習---數據預處理篇

1. 數據預處理是必要的,這裏以最簡單的MNIST dataset的輸入數據預處理爲例。      A. 設置隨機種子      np.random.seed(1337)  # for reproducibility     B. 輸入

原创 Python 代碼性能優化技巧

轉自:https://www.ibm.com/developerworks/cn/linux/l-cn-python-optim/index.html Python 代碼優化常見技巧 代碼優化能夠讓程序運行更快,它是在不改變程序運行

原创 關於RNNLM的思考,特別是與HMM,n-gram的區別

來自Quora. 1. RNN do not make the Markov assumption and so can, in theory, take into account long-term dependencies when

原创 CRFsuite 學習: CoNLL 2000 shared task

從 http://www.cnts.ua.ac.be/conll2000/chunking/下載了CoNLL 2000 shared task的訓練和測試語料。 從http://www.chokkan.org/software/crfs

原创 Kaggle/Titanic python分析和建模

Titanic是Kaggle入門項目,本文跟隨https://www.kaggle.com/startupsci/titanic/titanic-data-science-solutions學習。 1.Workflow stages 完

原创 《Mining Text Data》閱讀筆記---第1章 An Introduction to Text Mining

這是一本關於文本挖掘的很厚的英文電子書,看英文大部頭,很容易邊看邊忘記。 1.An Introduction to Text Mining 1.1 介紹 文本挖掘的三個問題: a. 主要的算法模型是什麼?與其他數據挖掘的區別? b.

原创 CNN(卷積神經網絡)、RNN(循環神經網絡)、DNN(深度神經網絡)的內部網絡結構有什麼區別?

轉自: http://blog.h5min.cn/u014365862/article/details/50813945 一篇不錯的文章,加深對DL的理解。 首先,我感覺不必像 @李Shawn 同學一樣認爲DNN、CNN、RNN完全不能

原创 詞形變換和詞幹提取工具(英文)

轉載自: http://www.cnblogs.com/kaituorensheng/p/3437807.html 詞形變換和詞幹提取工具(英文) 在信息檢索和文本挖掘中,需要對一個詞的不同形態進行歸併,即詞形規範化,從而提

原创 Keras學習---MLP和CNN模型建立篇

目前階段,僅考慮線線性堆疊且單輸出的網絡結構,更復雜的網絡有多任務(即多輸出)的網絡拓撲結構。 1. 最簡單的MLP模型 model.add(Dense(512, input_shape=(784,))) model.add(Act

原创 開源bot工具Rasa學習---1

Rasa是一個不錯的開源bot工具,全部基於python實現,主頁是https://rasa-nlu.readthedocs.io/en/latest/index.html 本節是關於工具安裝和初步運行的記錄。 根據其文檔進行安裝,我選

原创 Python環境下工具安裝小結

1. conda常用命令1.1 檢索可用軟件版本D:\Software\sklearn-crfsuite\sklearn-crfsuite-0.3.6\sklearn-crfsuite-0.3.6>anaconda search -t c

原创 python爬取網頁

1. 使用requests庫 import requests url="http://www.starbaby.cn/zhinan/609987" req =requests.get(url) req.encoding='utf-

原创 win10+GTX1070+keras+Anaconda+python3.5安裝記錄

新組裝了電腦,安裝了win10 企業版,並升級到最新。然後安裝了vs_community_2013,cuda8和git。 第1次安裝,完全按照網頁http://ankivil.com/installing-keras-theano-a