原创 KL散度和交叉熵

本文主要包括: 1.kl散度和交叉熵的概念比較{\color{red}1. kl散度和交叉熵的概念比較}1.kl散度和交叉熵的概念比較 2.交叉熵在分類任務中的本質{\color{red}2. 交叉熵在分類任務中的本質}2.交叉熵

原创 參數模型VS非參數模型

          我們在機器學習中學習到的很多的算法模型,都可以分爲參數(parametric)和非參數(nonparametric)。理解這兩個概念,並知道如何區分哪些是非參數,哪些是參數,對於你深入的理解機器學習中的算法,熟

原创 主題建模入門指南(python)

簡介 所謂分析,通常都是指從數據中獲取“信息”。近來,隨着數據迅猛增長——其中絕大多數數據是非結構的,要想獲得相關想要的信息變成越來越困難。慶幸地是,與此同時出現了一些強大的方法來幫助我們從這些數據中抽取出我們想要的信息。 文本挖

原创 SVM入門(2)--對偶

從SVM入門(1)–優化目標的來龍去脈 我們已經知道目標函數: 對於這樣的凸二次規劃問題有現成的優化包可進行求解。此外,這個問題有它的特殊結構,通過 Lagrange Duality 變換到對偶變量 (dual var

原创 推薦算法的可擴展性之hadoop篇(待續...)

我們都知道,大多數的推薦算法都是單機版的。如果不進行任何處理是不能夠分佈式執行,也就不能充分利用像hadoop這樣的分佈式計算集羣。這嚴重限制了 推薦算法的實際應用。比如協同過濾,像亞馬遜、天貓這些包含大量用戶、大量物品及大量行

原创 文本分類中的降維方法總結

引言 人們通常採用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統計方法得到的特徵項來表示文本向量中的各個維,那麼這個向量的維度將是非常的大。 這種未經處理的文本矢量不僅給後續工作帶來巨大的計算開銷,使整個處理過程的效

原创 中文文本的字數統計(不包括標點符號且考慮英文/數字序列)

#-*-coding=utf-8 -*- """ 統計一遍中文文章的字數(不包括標點符號,考慮英文/數字序列(不拆分成當個字母或數字) """ import re import jieba c = "\\" text = """然

原创 《Mining Large Streams of User Data for Personalized Recommendations》筆記

論文發表年份:2012 主要內容:1、當前在個性化推薦中如何使用數據挖掘技術 2、從 Netflix競賽中獲得的經驗; 3、Netflix競賽中主要使用

原创 Python文本處理之按行處理大文件

以行的形式讀出一個文件最簡單的方式是使用文件對象的readline()、readlines()和xreadlines()方法。 Python2.2+爲這種頻繁的操作提供了一個簡化的語法——讓文件對象自身在行上高效迭代(這種迭代是

原创 協同過濾算法概述

主要內容: 不同算法類的簡單介紹,各自的適用場景以及面臨的挑戰; 和其他算法的比較。 一.簡介 協同過濾是最早提出,同時也是研究的最多,實際應用也最多的一種推薦技術。對於協同過濾算法的分類,主要有兩種分類方式。有學者考慮算法

原创 機器學習法則:(谷歌)機器學習工程最佳實踐(譯)

本文來源:《Rules of Machine Learning:Best Practices for ML Engineering》 作者:Martin Zinkevich google 研究科學家。 這是Martin Zink

原创 __slots__爲什麼能節省內存?

注:本文是對http://www.datadependence.com/2016/07/pythonic-code-video-series-slots/ 的翻譯。說是翻譯,但不會逐字逐句翻譯。宗旨是回答標題的問題,所以也會增加自

原创 SVM入門(1)--優化目標函數的來龍去脈

在線性可分的場景下,SVM的優化目標函數爲: 如果是剛接觸SVM,你可能不知道這個目標函數,當然你也不知道這個w是什麼,後面的這個約束條件什麼意思。沒關係,你現在只要記着,這個就是在線性可分類場景下,SVM最終要優

原创 基於的樸素貝葉斯的文本分類(附完整代碼(spark/java)

本文主要包括以下內容: 1)模型訓練數據生成(demo) 2 ) 模型訓練(spark+java),數據存儲在hdfs上 3)預測數據生成(demo) 4)使用生成的模型進行文本分類。 一、訓練數據生成 spark mll

原创 python字符串過濾性能比較

總共比較5種方法。直接看代碼: import random import time import os import string base = string.digits+string.punctuation total =