台部落keepreder

python版的mapreduce版的wordcount程序網上有很多，但是都或多或少的有問題，運行時基本上都會出錯，從而導致本人走了不少彎路。經過本人的探索和實踐，整理出了能正常運行的代碼，並且附上幾點需要注意的地方。

2020-06-26 10:22:33

SVM有如下主要幾個特點： (1) 非線性映射是SVM方法的理論基礎,SVM利用內積核函數代替向高維空間的非線性映射； (2) 對特徵空間劃分的最優超平面是SVM的目標,最大化分類邊際的思想是SVM方法的核心； (3) 支持向

2020-06-26 10:22:23

代碼執行前首先要安裝所包含的各種模塊 print(__doc__) # Modified for documentation by Jaques Grobler # License: BSD 3 clause import numpy

2020-02-22 09:22:26

本文轉自美團技術團隊：http://tech.meituan.com/intro_to_logistic_regression.html 邏輯迴歸（Logistic Regression）是機器學習中的一種分類模型，

2018-08-22 02:09:29

1、LR採用log損失，SVM採用合頁損失。 2、LR對異常值敏感，SVM對異常值不敏感。 3、在訓練集較小時，SVM較適用，而LR需要較多的樣本。 4、LR模型找到的那個超平面，是儘量讓所有點都遠離他，而SVM尋找的那個超平面，是隻讓最

2018-08-22 02:09:26

本文出自美團技術團隊：http://tech.meituan.com/mt-mlinaction-how-to-ml.html 前言隨着大數據時代的到來，機器學習成爲解決問題的一種重要且關鍵的工具。不管是工業界還是學術界，機器學

2018-08-22 02:09:26

特徵選擇(排序)對於數據科學家、機器學習從業者來說非常重要。好的特徵選擇能夠提升模型的性能，更能幫助我們理解數據的特點、底層結構，這對進一步改善模型、算法都有着重要作用。特徵選擇主要有兩個功能：減少特徵數量、降維，使模

2018-08-22 02:09:26

爲什麼會產生過擬合，有哪些方法可以預防或克服過擬合？什麼是過擬合：所謂過擬合（Overfit），是這樣一種現象：一個假設在訓練數據上能夠獲得比其他假設更好的擬合，但是在訓練數據外的數據集上卻不能很好的擬合數據。此時我們就叫這個假設出

2018-08-22 02:09:26

在hadoop中，每個mapreduce任務都會被初始化爲一個Job。每個Job又可以分爲兩個階段：map階段和reduce階段。這兩個階段分別用兩個函數來表示，即map函數和reduce函數。map函數接收一個<key,v

2018-08-22 02:09:26

1、快速排序的基本思想：快速排序使用分治的思想，通過一趟排序將待排序列分割成兩部分，其中一部分記錄的關鍵字均比另一部分記錄的關鍵字小。之後分別對這兩部分記錄繼續進行排序，以達到整個序列有序的目的。 2、快速排序的三個步驟：

2018-08-22 02:09:26

本文出自美團技術團隊：http://tech.meituan.com/machinelearning-data-feature-process.html 背景隨着美團交易規模的逐步增大，積累下來的業務數據和交易數據越來越多，這些

2018-08-22 02:09:26

以個性化新聞推薦爲例，整個過程分成兩個mapreduce階段，由於hadoop流不支持多個mapreduce過程的自動化，所以所有mapreduce過程命令必須人工一個一個的執行。 1、首先需要將原始數據處理成如下形式的兩個

2018-08-22 02:09:14

MapReduce的執行流程簡單概括如下：用戶作業執行JobClient.runJob(conf)代碼會在Hadoop集羣上將其啓動。啓動之後JobClient實例會向JobTracker獲取JobId，而且客戶端會將作業執

2018-08-22 02:09:14

網上有很多關於隨機森林優缺點的總結，但是都只是抄來抄去，並沒有對這些優缺點作說明，導致有些看不懂。本人根據自己的理解，對某些優缺點做一下說明，如果理解有不對的地方，歡迎大家指正。隨機森林是一個用隨機方式

2018-08-22 02:09:14

從 SVM的那幾張圖可以看出來，SVM是一種典型的兩類分類器，即它只回答屬於正類還是負類的問題。而現實中要解決的問題，往往是多類的問題（少部分例外，例如垃圾郵件過濾，就只需要確定“是”還是“不是”垃圾郵件），比如文本分類，

2018-08-22 02:09:13