台部落青空梔淺

本文主要介紹餘下的兩種文本相似度的計算方式: simhash + 漢明距離 minhash simhash+漢明距離 simhash是google用來處理海量文本去重的算法。simhash就是將一個文檔，最後轉換成一個64位的字節，然後

2018-12-21 14:44:19

該篇文章主要介紹基於詞語的文本相似度計算方式,包括: 餘弦相似度歐式距離 Dice係數 Jaccard 在計算餘弦相似度與歐式距離的時候，需要將詞語向量化表示，這就需要用到詞袋模型。詞袋模型(Bag of words) 最初的Bag

2018-12-21 11:42:43

近期準備整理一下自然語言處理方面用到的技術，之前工作都是按照工作需求來走，對用到的技術算法也沒有做一下系統性的整體，所以近期準備系統性的整理一下自然語言處理相關的內容。初步構想涉及6個方面的問題。文本相似度的計算文本關鍵詞提取文本分

2018-12-18 17:04:13

近期由於數據庫中保存的一些類似小區名稱，街道名稱存在簡寫，錯別字等不規範的現象，需要將不規範的書寫進行糾錯改正。在進行糾錯的過程中用到了【編輯距離】的計算方式來與對照表進行精確匹配。編輯距離 1.Levenshtein距離是一種計算兩個

2018-12-13 15:24:12

****由於最近需要做大規模的文本相似度的計算，所以用到了simhash+漢明距離來快速計算文本的相似度。** **simhash的原理如下圖:其中的weight採用的是jieba的tf-idf的結果。**** **附上python3的

2018-12-11 15:44:07

方差/偏差權衡在統計學和機器學習領域，一個重要的理論結果是，模型的泛化誤差可以被表示爲三個截然不同的誤差之和。偏差這部分泛化誤差的原因在於錯誤的假設，比如假設數據是線性的，而實際上是二次的。高偏差模型最有可能對訓練數據擬合不足。方差

2018-10-31 17:25:10

import jieba import pandas as pd df_technology = pd.read_csv("./data/technology_news.csv", encoding='utf-8') df_technolo

2018-10-25 16:25:08

機器學習-泛化能力 1.泛化能力在機器學習方法中，泛化能力通俗來講就是指學習到的模型對未知數據的預測能力。在實際情況中，我們通常通過測試誤差來評價學習方法的泛化能力。如果在不考慮數據量不足的情況下出現模型的泛化能力差，那麼其原因基本爲對損

2018-09-18 18:47:45

PLSA LDA 參考：《LDA數學八卦》

2018-09-18 18:47:35