原创 用python編寫mapreduce版的wordcount程序

        python版的mapreduce版的wordcount程序網上有很多,但是都或多或少的有問題,運行時基本上都會出錯,從而導致本人走了不少彎路。經過本人的探索和實踐,整理出了能正常運行的代碼,並且附上幾點需要注意的地方。

原创 SVM 的推導、特點、優缺點、多分類問題及應用

SVM有如下主要幾個特點:   (1)  非線性映射是SVM方法的理論基礎,SVM利用內積核函數代替向高維空間的非線性映射; (2)  對特徵空間劃分的最優超平面是SVM的目標,最大化分類邊際的思想是SVM方法的核心; (3)  支持向

原创 機器學習各種算法結果可視化比對

代碼執行前首先要安裝所包含的各種模塊 print(__doc__) # Modified for documentation by Jaques Grobler # License: BSD 3 clause import numpy

原创 Logistic Regression 模型簡介

本文轉自美團技術團隊:http://tech.meituan.com/intro_to_logistic_regression.html        邏輯迴歸(Logistic Regression)是機器學習中的一種分類模型,

原创 邏輯迴歸和SVM的區別

1、LR採用log損失,SVM採用合頁損失。 2、LR對異常值敏感,SVM對異常值不敏感。 3、在訓練集較小時,SVM較適用,而LR需要較多的樣本。 4、LR模型找到的那個超平面,是儘量讓所有點都遠離他,而SVM尋找的那個超平面,是隻讓最

原创 實例詳解機器學習如何解決問題

本文出自美團技術團隊:http://tech.meituan.com/mt-mlinaction-how-to-ml.html 前言 隨着大數據時代的到來,機器學習成爲解決問題的一種重要且關鍵的工具。不管是工業界還是學術界,機器學

原创 如何進行特徵選擇?

   特徵選擇(排序)對於數據科學家、機器學習從業者來說非常重要。好的特徵選擇能夠提升模型的性能,更能幫助我們理解數據的特點、底層結構,這對進一步改善模型、算法都有着重要作用。 特徵選擇主要有兩個功能: 減少特徵數量、降維,使模

原创 爲什麼會產生過擬合,有哪些方法可以預防或克服過擬合

爲什麼會產生過擬合,有哪些方法可以預防或克服過擬合? 什麼是過擬合: 所謂過擬合(Overfit),是這樣一種現象:一個假設在訓練數據上能夠獲得比其他假設更好的擬合,但是在訓練數據外的數據集上卻不能很好的擬合數據。此時我們就叫這個假設出

原创 MapReduce執行流程詳解

       在hadoop中,每個mapreduce任務都會被初始化爲一個Job。每個Job又可以分爲兩個階段:map階段和reduce階段。這兩個階段分別用兩個函數來表示,即map函數和reduce函數。map函數接收一個<key,v

原创 快速排序的優化

1、快速排序的基本思想:    快速排序使用分治的思想,通過一趟排序將待排序列分割成兩部分,其中一部分記錄的關鍵字均比另一部分記錄的關鍵字小。之後分別對這兩部分記錄繼續進行排序,以達到整個序列有序的目的。 2、快速排序的三個步驟:

原创 機器學習中的數據清洗與特徵處理綜述

本文出自美團技術團隊:http://tech.meituan.com/machinelearning-data-feature-process.html 背景 隨着美團交易規模的逐步增大,積累下來的業務數據和交易數據越來越多,這些

原创 用Hadoop流實現mapreduce版推薦系統基於物品的協同過濾算法

       以個性化新聞推薦爲例,整個過程分成兩個mapreduce階段,由於hadoop流不支持多個mapreduce過程的自動化,所以所有mapreduce過程命令必須人工一個一個的執行。 1、首先需要將原始數據處理成如下形式的兩個

原创 MapReduce的工作機制

       MapReduce的執行流程簡單概括如下:用戶作業執行JobClient.runJob(conf)代碼會在Hadoop集羣上將其啓動。啓動之後JobClient實例會向JobTracker獲取JobId,而且客戶端會將作業執

原创 隨機森林的優缺點

        網上有很多關於隨機森林優缺點的總結,但是都只是抄來抄去,並沒有對這些優缺點作說明,導致有些看不懂。本人根據自己的理解,對某些優缺點做一下說明,如果理解有不對的地方,歡迎大家指正。         隨機森林是一個用隨機方式

原创 SVM如何解決多分類問題

      從 SVM的那幾張圖可以看出來,SVM是一種典型的兩類分類器,即它只回答屬於正類還是負類的問題。而現實中要解決的問題,往往是多類的問題(少部分例外,例如垃圾郵件過濾,就只需要確定“是”還是“不是”垃圾郵件),比如文本分類,