原创 4.1 最近鄰規則分類算法(KNN)

綜述 1.1 Cover和Hart在1968年提出了最初的鄰近算法 1.2 分類(classification)算法 1.3 輸入基於實例的學習(instance-based learning), 懶惰學習(lazy

原创 Hadoop2.x的安裝與配置

1.vbox構建實驗環境 2.設置橋接 3.SecureCRT 3.下載jdk 4.修改hosts文件 5.下載Hadoop2.x 6.修改配置文件 1.Hadoop-env.sh 2.yarn-env.s

原创 6.2 支持向量機應用(上)

1 sklearn簡單例子 # -*- coding:utf-8 -*- from sklearn import svm X=[[2,0],[1,1],[2,3]] y=[0,0,1] clf=svm.SVC(kernel='l

原创 7.2 簡單線性迴歸應用

簡單線性迴歸模型舉例: 汽車賣家做電視廣告數量與賣出的汽車數量: 1.1 如何練處適合簡單線性迴歸模型的最佳迴歸線? 使sum of squares最小 1.1.2 計算 分子 = (1-2)(14-20)+(

原创 3.1、決策樹算法

什麼是決策樹/判定樹(decision tree)? 判定樹是一個類似於流程圖的樹結構:其中,每個內部結點表示在一個屬性上的測試,每個分支代表一個屬性輸出,而每個樹葉結點代表類或類分佈。樹的最頂層是根結點。 機器學習中分類

原创 1. 冒泡排序

1、基本思想:在要排序的一組數中,對當前還未排好序的範圍內的全部數,自上而下對相鄰的兩個數依次進行比較和調整,讓較大的數往下沉,較小的往上冒。即:每當兩相鄰的數比較後發現它們的排序與排序要求相反時,就將它們互換。 2、實例 3

原创 Storm架構分析

Storm是個實時的、分佈式以及具備高容錯的計算系統。   1) Storm 特性    1. 易於擴展。對於擴展,你只需要添加機器和改變對應的topology(拓撲)設置。Storm使用Zookeeper進行集羣協調,這樣可

原创 6.1 支持向量機算法(上)

背景: 1.1 最早是由 Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出 1.2 目前的版本(soft margin)是由Corinna Cortes 和 Vapn

原创 樹狀數組

一、樹狀數組是幹什麼的? 平常我們會遇到一些對數組進行維護查詢的操作,比較常見的如,修改某點的值、求某個區間的和,而這兩種恰恰是樹狀數組的強項!當然,數據規模不大的時候,對於修改某點的值是非常容易的,複雜度是O(1

原创 kafka入門:簡介、使用場景、設計原理、主要配置及集羣搭建(轉)

一、入門     1、簡介     Kafka is a distributed,partitioned,replicated commit logservice。它提供了類似於JMS的特性,但是在設計實現上完全不同,此外它並不是J

原创 3.2 決策樹算法應用

Python Python機器學習的庫:scikit-learn 2.1: 特性: 簡單高效的數據挖掘和機器學習分析 對所有用戶開放,根據不同需求高度可重用性 基於Numpy, SciPy和matplotlib 開源,商

原创 7.3 多元線性迴歸算法

與簡單線性迴歸區別(simple linear regression) 多個自變量(x) 多元迴歸模型 y=β0+β1x1+β2x2+ … +βpxp+ε 其中:β0,β1,β2… βp是參數

原创 7.1 簡單線性迴歸算法

前提介紹: 爲什麼需要統計量? 統計量:描述數據特徵 0.1 集中趨勢衡量 0.1.1均值(平均數,平均值)(mean) {6, 2, 9, 1, 2} (6 + 2 + 9 + 1 + 2) / 5 = 20 /

原创 5.1 神經網絡算法

背景: 1.1 以人腦中的神經網絡爲啓發,歷史上出現過很多不同版本 1.2 最著名的算法是1980年的 backpropagation 多層向前神經網絡(Multilayer Feed-Forward Neural N

原创 二、基本概念

基本概念:訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,迴歸 概念學習:人類學習概念:鳥,車,計算機 定義:概念學習是指從有關某個布爾函數的輸入輸出訓練樣例中推斷出該布爾函數 例子:學習 “享受運動” 這一概