Keras + LSTM + 詞向量情感分類/情感分析實驗

背景簡介

本人是深度學習入門的菜菜菜鳥一枚…
利用LSTM + word2vec詞向量進行文本情感分類/情感分析實驗，吸收了網上的資源和代碼並嘗試轉化爲自己的東西~

實驗環境

win7 64位系統
Anaconda 4.3.0 , Python 2.7 version
Pycharm開發環境
python包：keras，gensim，numpy等

實驗數據

本文的實驗數據是來自網上的中文標註語料，涉及書籍、酒店、計算機、牛奶、手機、熱水器六個方面的購物評論數據，具體介紹參見該文：購物評論情感分析。

數據處理

上面提到的數據在網上見到的次數比較多，原始格式是兩個excel文件，如圖：

對，就是這兩個…估計來到本文的小夥伴也見過。一些代碼就是直接從這兩個excel裏讀取數據、分詞、處理…不過我表示自己習慣從txt文本里獲取數據，因此本人將數據合併、去重（原數據裏有不少重複的評論）、分詞（用的是哈工大LTP分詞）之後存爲一份txt文本，保留的數據情況如下：

正面評價個數：8680個
負面評價個數：8000個

文本如圖所示：

然後人工生成一份【語料類別】文本，用1表示正面評價，用0表示負面評價，與評論數據一一對應。

生成詞語的索引字典、詞向量字典

利用上述文本語料生成詞語的索引字典和詞向量字典。
注意：當Word2vec詞頻閾值設置爲5時，詞頻小於5的詞語將不會生成索引，也不會生成詞向量數據。

工具：gensim裏的Word2vec，Dictionary

代碼

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
功能：利用大語料生成詞語的索引字典、詞向量，然後保存爲pkl文件
時間：2017年3月8日 13:19:40
"""

import pickle
import logging
import tkFileDialog

import numpy as np
np.random.seed(1337)  # For Reproducibility

from Functions.TextSta import TextSta
from gensim.models.word2vec import Word2Vec
from gensim.corpora.dictionary import Dictionary

# 創建詞語字典，並返回word2vec模型中詞語的索引，詞向量
def create_dictionaries(p_model):
    gensim_dict = Dictionary()
    gensim_dict.doc2bow(p_model.vocab.keys(), allow_update=True)
    w2indx = {v: k + 1 for k, v in gensim_dict.items()}  # 詞語的索引，從1開始編號
    w2vec = {word: model[word] for word in w2indx.keys()}  # 詞語的詞向量
    return w2indx, w2vec

# 主程序
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

print u"請選擇大語料的分詞文本..."
T = TextSta(tkFileDialog.askopenfilename(title=u"選擇文件"))
sentences = T.sen()    # 獲取句子列表，每個句子又是詞彙的列表

print u'訓練Word2vec模型（可嘗試修改參數）...'
model = Word2Vec(sentences,
                 size=100,  # 詞向量維度
                 min_count=5,  # 詞頻閾值
                 window=5)  # 窗口大小

model_name = raw_input(u"請輸入保存的模型文件名...\n").decode("utf-8")
model.save(model_name + u'.model')  # 保存模型

# 索引字典、詞向量字典
index_dict, word_vectors= create_dictionaries(model)

# 存儲爲pkl文件
pkl_name = raw_input(u"請輸入保存的pkl文件名...\n").decode("utf-8")
output = open(pkl_name + u".pkl", 'wb')
pickle.dump(index_dict, output)  # 索引字典
pickle.dump(word_vectors, output)  # 詞向量字典
output.close()

if __name__ == "__main__":
    pass

其中，

T = TextSta(tkFileDialog.askopenfilename(title=u"選擇文件"))
sentences = T.sen()    # 獲取句子列表，每個句子又是詞彙的列表

TextSta是我自己寫的一個類，讀取語料文本後，sentences = T.sen()將文本里的每一行生成一個列表，每個列表又是詞彙的列表。（這個類原來是用作句子分類的，每行是一個句子；這裏每行其實是一個評論若干個句子…我就不改代碼變量名了…）

TextSta類部分代碼：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
功能：一個類，執行文本轉換
輸入：分詞文本
輸出：句子列表，全文的詞彙列表，TF，DF
時間：2016年5月17日 19:08:34
"""

import codecs
import re
import tkFileDialog


class TextSta:
    # 定義基本屬性，分詞文本的全路徑
    filename = ""

    # 定義構造方法
    def __init__(self, path):    # 參數path，賦給filename
        self.filename = path

    def sen(self):    # 獲取句子列表
        f1 = codecs.open(self.filename, "r", encoding="utf-8")
        print u"已經打開文本：", self.filename

        # 獲得句子列表，其中每個句子又是詞彙的列表
        sentences_list = []
        for line in f1:
            single_sen_list = line.strip().split(" ")
            while "" in single_sen_list:
                single_sen_list.remove("")
            sentences_list.append(single_sen_list)
        print u"句子總數：", len(sentences_list)

        f1.close()
        return sentences_list

if __name__ == "__main__": 
    pass

總之，sentences的格式如下：

[[我, 是, 2月, …], [#, 蒙牛, 百, …], …]

所有的評論文本存爲一個列表，每個評論文本又是詞彙的列表。
sentences列表的長度就是文本的行數：len(sentences) = 16680

利用Keras + LSTM進行文本分類

工具：Keras深度學習庫

代碼：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
功能：利用詞向量+LSTM進行文本分類
時間：2017年3月10日 21:18:34
"""

import numpy as np

np.random.seed(1337)  # For Reproducibility

import pickle
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers.embeddings import Embedding
from keras.layers.recurrent import LSTM
from keras.layers.core import Dense, Dropout, Activation

from sklearn.cross_validation import train_test_split

from Functions import GetLineList
from Functions.TextSta import TextSta

# 參數設置
vocab_dim = 100  # 向量維度
maxlen = 140  # 文本保留的最大長度
batch_size = 32
n_epoch = 5
input_length = 140


def text_to_index_array(p_new_dic, p_sen):  # 文本轉爲索引數字模式
    new_sentences = []
    for sen in p_sen:
        new_sen = []
        for word in sen:
            try:
                new_sen.append(p_new_dic[word])  # 單詞轉索引數字
            except:
                new_sen.append(0)  # 索引字典裏沒有的詞轉爲數字0
        new_sentences.append(new_sen)

    return np.array(new_sentences)


# 定義網絡結構
def train_lstm(p_n_symbols, p_embedding_weights, p_X_train, p_y_train, p_X_test, p_y_test):
    print u'創建模型...'
    model = Sequential()
    model.add(Embedding(output_dim=vocab_dim,
                        input_dim=p_n_symbols,
                        mask_zero=True,
                        weights=[p_embedding_weights],
                        input_length=input_length))

    model.add(LSTM(output_dim=50,
                   activation='sigmoid',
                   inner_activation='hard_sigmoid'))
    model.add(Dropout(0.5))
    model.add(Dense(1))
    model.add(Activation('sigmoid'))

    print u'編譯模型...'
    model.compile(loss='binary_crossentropy',
                  optimizer='adam',
                  metrics=['accuracy'])

    print u"訓練..."
    model.fit(p_X_train, p_y_train, batch_size=batch_size, nb_epoch=n_epoch,
              validation_data=(p_X_test, p_y_test))

    print u"評估..."
    score, acc = model.evaluate(p_X_test, p_y_test, batch_size=batch_size)
    print 'Test score:', score
    print 'Test accuracy:', acc


# 讀取大語料文本
f = open(u"評價語料索引及詞向量.pkl", 'rb')  # 預先訓練好的
index_dict = pickle.load(f)  # 索引字典，{單詞: 索引數字}
word_vectors = pickle.load(f)  # 詞向量, {單詞: 詞向量(100維長的數組)}
new_dic = index_dict

print u"Setting up Arrays for Keras Embedding Layer..."
n_symbols = len(index_dict) + 1  # 索引數字的個數，因爲有的詞語索引爲0，所以+1
embedding_weights = np.zeros((n_symbols, 100))  # 創建一個n_symbols * 100的0矩陣
for w, index in index_dict.items():  # 從索引爲1的詞語開始，用詞向量填充矩陣
    embedding_weights[index, :] = word_vectors[w]  # 詞向量矩陣，第一行是0向量（沒有索引爲0的詞語，未被填充）

# 讀取語料分詞文本，轉爲句子列表（句子爲詞彙的列表）
print u"請選擇語料的分詞文本..."
T1 = TextSta(u"評價語料_分詞後.txt")
allsentences = T1.sen()

# 讀取語料類別標籤
print u"請選擇語料的類別文本...（用0，1分別表示消極、積極情感）"
labels = GetLineList.main()

# 劃分訓練集和測試集，此時都是list列表
X_train_l, X_test_l, y_train_l, y_test_l = train_test_split(allsentences, labels, test_size=0.2)

# 轉爲數字索引形式
X_train = text_to_index_array(new_dic, X_train_l)
X_test = text_to_index_array(new_dic, X_test_l)
print u"訓練集shape： ", X_train.shape
print u"測試集shape： ", X_test.shape

y_train = np.array(y_train_l)  # 轉numpy數組
y_test = np.array(y_test_l)

# 將句子截取相同的長度maxlen，不夠的補0
print('Pad sequences (samples x time)')
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)
print('X_train shape:', X_train.shape)
print('X_test shape:', X_test.shape)

train_lstm(n_symbols, embedding_weights, X_train, y_train, X_test, y_test)

if __name__ == "__main__":
    pass

其中，

from Functions import GetLineList

GetLineList是自定義模塊，用於獲取文本的類別（存爲列表），代碼如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
功能：文本轉列表，常用於讀取詞典（停用詞，特徵詞等）
使用：給定一個文本，將文本按行轉換爲列表，每行對應列表裏的一個元素
時間：2016年5月15日 22:45:23
"""

import codecs
import tkFileDialog


def main():
    # 打開文件
    file_path = tkFileDialog.askopenfilename(title=u"選擇文件")
    f1 = codecs.open(file_path, "r", encoding="utf-8")
    print u"已經打開文本：", file_path

    # 轉爲列表
    line_list = []
    for line in f1:
        line_list.append(line.strip())
    print u"列表裏的元素個數：", len(line_list)

    f1.close()
    return line_list

if __name__ == "__main__":
    pass

實驗結果

參考文獻:

http://buptldy.github.io/2016/07/20/2016-07-20-sentiment%20analysis/
https://github.com/BUPTLdy/Sentiment-Analysis

Keras + LSTM + 詞向量情感分類/情感分析實驗

背景簡介

實驗環境

實驗數據

數據處理

生成詞語的索引字典、詞向量字典

代碼

利用Keras + LSTM進行文本分類

代碼：

實驗結果

結巴中文分詞使用學習（python）

Python跳出多重循環的方法

Win7系統CMD進入文件夾目錄的命令

【python gensim使用】word2vec詞向量處理英文語料

Markdown語法入門練習

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Keras + LSTM + 詞向量 情感分類/情感分析實驗

背景簡介

實驗環境

實驗數據

數據處理

生成詞語的索引字典、詞向量字典

代碼

利用Keras + LSTM進行文本分類

代碼：

實驗結果

Keras + LSTM + 詞向量情感分類/情感分析實驗