python哈希與稀疏矩陣的處理

原創

missasd1

2020-06-02 17:10

一 哈希的原理

字典： key 映射到 value

哈希： key 映射到 key的哈希值映射到 value

例如查找《現代漢語字典》拼音“an” 映射到頁碼55 映射到安

二自定義哈希函數

在NLP問題中，假設你想把一個字符串轉換爲一個數值型向量，可以使用one-hot-encoding也就是哈希函數的方法來產生詞袋

input_string = "Python for data science" # 輸入字符串

def hashing_trick(input_string):
    result= [0] * len(input_string) #初始化結果序列，長度同輸入序列
    for word in input_string.split(" "):
        index = abs(hash(word)) % len(input_string) # 自定義哈希函數
        result[index] = 1
    return result


print(hashing_trick(input_string))

# 輸出結果 [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

可見輸出的結果向量中的 1 ，代表了輸入字符串的四個單詞。

結果向量中的1的位置，與單詞的哈希值有關。

三對稀疏矩陣的處理

由第二步的輸出結果可知序列 [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] ，絕大部分的值爲零，

因此稱該序列爲稀疏矩陣。

對稀疏矩陣的處理：

我們可以使用sklearn的csc_matrix方法，即一個基於行的壓縮矩陣來進行處理。

a = [1,0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0]
from scipy.sparse import csc_matrix
print(csc_matrix(a))

# 輸出結果爲
#   (0, 0)	1       表示第零行，第零列 的元素爲1。向量a可看作一個一行二十列的矩陣
#   (0, 5)	1
#   (0, 16)	1
#   (0, 18)	1
# 可見處理後的結果與輸入的稀疏矩陣一一對應

處理的結果是，將數據表示在座標（以行和列索引的元素表示）的單元格值中。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python哈希與稀疏矩陣的處理

致遠OA及相關OA系統集成與二次開發

EXCEL公式使用總結

System.Object未被引用的程序集中定義

Java 信號量（semaphore）搭配CountDownLatch 實現多線程處理循環內邏輯並限制創建線程數

[轉帖]linux命令top內存顯示M兆或者G

【面試準備】項目經驗——接口自動化項目

上癮-讓用戶養成使用習慣的四大產品邏輯-第一章

python哈希與稀疏矩陣的處理

Leetcode 347: Top K Frequent Elements

紅石電子學——與、或、非邏輯門

數據庫系統概念-第一章引言

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結