原创 文本相似度計算_03

本文主要介紹餘下的兩種文本相似度的計算方式: simhash + 漢明距離 minhash simhash+漢明距離 simhash是google用來處理海量文本去重的算法。simhash就是將一個文檔,最後轉換成一個64位的字節,然後

原创 文本相似度計算_02

該篇文章主要介紹基於詞語的文本相似度計算方式,包括: 餘弦相似度 歐式距離 Dice係數 Jaccard 在計算餘弦相似度與歐式距離的時候,需要將詞語向量化表示,這就需要用到詞袋模型。 詞袋模型(Bag of words) 最初的Bag

原创 文本相似度計算_01

近期準備整理一下自然語言處理方面用到的技術,之前工作都是按照工作需求來走,對用到的技術算法也沒有做一下系統性的整體,所以近期準備系統性的整理一下自然語言處理相關的內容。初步構想涉及6個方面的問題。 文本相似度的計算 文本關鍵詞提取 文本分

原创 基於字符串的模糊匹配

近期由於數據庫中保存的一些類似小區名稱,街道名稱存在簡寫,錯別字等不規範的現象,需要將不規範的書寫進行糾錯改正。在進行糾錯的過程中用到了【編輯距離】的計算方式來與對照表進行精確匹配。 編輯距離 1.Levenshtein距離是一種計算兩個

原创 simhash+漢明距離計算文本相似度

****由於最近需要做大規模的文本相似度的計算,所以用到了simhash+漢明距離來快速計算文本的相似度。** **simhash的原理如下圖:其中的weight採用的是jieba的tf-idf的結果。**** **附上python3的

原创 統計機器學習-方差/偏差的權衡

方差/偏差權衡 在統計學和機器學習領域,一個重要的理論結果是,模型的泛化誤差可以被表示爲三個截然不同的誤差之和。 偏差 這部分泛化誤差的原因在於錯誤的假設,比如假設數據是線性的,而實際上是二次的。高偏差模型最有可能對訓練數據擬合不足。 方差

原创 樸素貝葉斯/SVM文本分類

import jieba import pandas as pd df_technology = pd.read_csv("./data/technology_news.csv", encoding='utf-8') df_technolo

原创 機器學習-泛化能力

機器學習-泛化能力 1.泛化能力 在機器學習方法中,泛化能力通俗來講就是指學習到的模型對未知數據的預測能力。在實際情況中,我們通常通過測試誤差來評價學習方法的泛化能力。如果在不考慮數據量不足的情況下出現模型的泛化能力差,那麼其原因基本爲對損

原创 LDA主題模型發展歷程(2)

PLSA LDA 參考:《LDA數學八卦》