nlp之詞向量轉換

原創

2020-06-30 08:52

# 分詞器，僅保留數據中前10000個最常見的單詞作爲特徵，低頻單詞將被捨棄
tokenizer = text.Tokenizer(num_words=max_features)
tokenizer.fit_on_texts(list(X_train) + list(X_test))

# 將評論數據的單詞轉換成速數形式，如：[1,0,3,,2,0]
X_train = tokenizer.texts_to_sequences(X_train)
X_test = tokenizer.texts_to_sequences(X_test)

# 統一長度,長度爲200
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)

# word_index是一個將單詞映射爲整數索引的字典(word,int)
word_index = tokenizer.word_index

# 之前我們是要保留數據中前10000個最常見的單詞作爲特徵，但也有可能存在數據中所有的單詞總量都不到10000個，所以之前我們要判斷特徵數是多少
num_words = min(max_features, len(word_index))

# 創建一個零矩陣，矩陣大小爲(單詞數，300)，300是因爲所用到的預訓練詞向量的張量就是300
embedding_matrix = np.zeros((num_words, embed_size))

# 從預訓練詞向量中獲取單詞對應的詞向量，並保存在上面創建的零矩陣中
for word, i in word_index.items():
    # 當num_words = max_features時，說明len(word_index) > max_features，即len(word_index) > num_words,此時的i會超出len(embedding_matrix)，所以需要continue
    if i >= max_features:continue
    
    embedding_vector = embeddings_index.get(word) # 獲取單詞的詞向量
    
    if embedding_vector is not None: # 判斷預訓練的詞向量中是否存在該單詞的詞向量
        embedding_matrix[i] = embedding_vector# 以矩陣的索引作爲單詞的索引，並保存詞向量
        
# X_train,X_test,embedding_matrix就是訓練集和測試集的詞袋以及總數據的詞向量。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Bus Hound 重新安裝就可以看到設備了。

記錄一下。

2020-07-08 09:16:16

nodejs雜項

node.js四個常用包 const http=require('http');//建立服務 const fs=require('fs');//文件相關操作 const querystring=require('querystri

2020-07-07 17:31:30

初識Websocket

什麼是Websocket WebSocket是一種通信協議，可在單個TCP連接上進行全雙工通信。WebSocket使得客戶端和服務器之間的數據交換變得更加簡單，允許服務端主動向客戶端推送數據。在WebSocket API中，瀏覽

2020-07-07 17:31:30

跨域訪問會導致session失效

未跨域Ajax異步請求時，session保持不變未跨域時Ajax請求不同的action時，session保持不變跨域Ajax異步請求時，每次請求都是一個新的session 一些帖子供參考 http://www.cnblo

2020-07-07 00:06:04

我與無人機的2020上半年

與上次的技術文章，這篇文章似乎等了將近一年之久，從19年下半年的被迫跟着老師出差，從而只有不到十天的寫畢業論文，到2020年上半年的疫情，這便是一個整體的發展進程。可真實原因是~ 我繼續着我的視頻教程的錄製，發現像我這麼講文明的人，能動

2020-07-06 06:47:48

記IDEA run或者debug無任何反應的解決過程

起因今天繼續完善項目，但是改完後，發現在IDEA中，點擊run或者debug，均無任何反應，發現有點奇怪。再新建一個類，只有main方法，點擊run或者debug也沒有任何反應。關鍵是idea沒有任何日誌提示什麼問題，這就有點無從下手了

2020-07-06 04:32:34

Eclipse CDT生成、調用C動態庫

（一）生成動態庫 1 創建動態庫工程 File->New->Project->CProject->選擇Shared Library，工程命名爲test。 2 創建源代碼文件 File->New->Source File，指定名稱爲t

2020-07-05 08:13:54

OPERAND-SIZE和ADDRESS-SIZE屬性

當處理器在保護模式下執行時，每一個代碼段都具有默認的OPERAND-SIZE和ADDRESS-SIZE屬性。這些屬性通過segment descriptor中的D flag確定，當D flag爲1時，OPERAND-SIZE和ADDRES

2020-07-05 08:13:54

如何給0到9的數字添加自定義樣式

DecimalFormatdf=new DecimalFormat();//java.text.DecimalFormat 包 df.applyPattern(“00”);//自定義樣式，我需要的是01這種 String

2020-07-04 22:04:35

sessionStorage 存儲的寫法

sessionStorage.av = JSON.stringify(data); var _data = JSON.parse(sessionStorage.av);

2020-07-04 22:04:35

如何從一個list集合當中移除一部分的子集合

兩個集合當中相同的對象內容一致卻無法移除的原因是因爲兩者的id或者hashcode不一致導致的，我自己的解決方法是在實體類上重寫hashcode()方法和equals()方法,然後removeall（）就可以了。 public c

2020-07-04 22:04:35

js的判空語句

if裏面的返回值是true或是false,那麼只要括號裏隨便一個數都可以, javascript中以下值會判斷爲爲false： false undefined null 0 -0 NaN “”

2020-07-04 22:04:35

jeesite 輸入框默認提示

本想看jeesite有沒有屬性是默認提示的，之後知道了html5的placeholder新屬性就是自己想要的效果，附：

2020-07-04 22:04:35

關於泰國的那些事

習俗： 1、小費：資本社會，每天20泰銖消費 2、方向盤相反 3、慢節奏的生活，各種慢 4、五星級酒店只有礦泉水，其他的牙膏牙刷統統沒有 5、只允許帶水果，不允許帶到中國 6、禁賭不禁色，aa制國家，母系社會，女性地位高於男的，不是一夫多

2020-07-04 17:06:15

解決AndroidStudio的Flutter插件無法顯示已連接的設備，一直是loading狀態的問題

前言按照官方教程在電腦上配置好Flutter開發環境，在AndroidStudio上安裝好Flutter插件，新建一個Flutter項目後，發現toolbar中展示已連接設備的那個方塊一直是loading狀態，如下：但是我明

2020-07-03 22:00:32

24小時熱門文章

sm4加密工具類

最新文章

最新評論文章