NLP解碼

# 從分詞器中獲取詞索引數組(word,int)
word_index = tokenizer.word_index

# 將詞索引鍵值顛倒(int word)
reverse_word_index = dict([(value,word) for (word,value) in word_index.items()])

# 將train_data的第一條數據解碼
# 索引減去3,因爲0、1、2是爲“padding”(填充)、“start of sequence”(序列開始)、“unknown”(未知詞)分別保留的索引
decoded_review = ' '.join([reverse_word_index.get(i-3,'?') for i in train_data[0]])
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章