原创 機器學習筆記--K-近鄰算法(二)

使用K-近鄰算法改進約會網站的配對效果 我的朋友海倫一直使用在線約會網站尋找適合自己的約會對象。 儘管約會網站會推薦不同的 人選,但她沒有從中找到喜歡的人。經過一番總結,她發現曾交往過三種類型的人: □ 不喜歡的人 □ 魅力一般

原创 python的scipy學習筆記

Scripy scipy是世界上著名的python開源科學計算庫,建立在Numpy之上。它增加的功能包括數值積分、最優化、統計和一些專用函數 from scipy import io as spio import numpy as

原创 python基礎學習--date

import time ticks = time.time() ticks 1501728802.939 序號 屬性 值 0 tm_ye

原创 機器學習之PCA

1、PCA概述 在很多實際數據中,通常涉及很多的變量。大量的變量不但增加了計算的複雜度,而且有些變量有可能是噪聲, 從而將數據中的主要數據“淹沒”。此外雖然每一個變量都提供了相應的信息,但是很多變量可能存在一定的 相關性。因此

原创 機器學習中的參數估計

1、最大似然估計MLE(maximum likelihood estimation) 最大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。 首先回顧一下貝葉斯公式 這個公式也稱爲逆

原创 tensorflow基礎

環境:windows 7 tensorflow-GPU 1.3 Numpy數組 tensorflow的數據類型是基於numpy的數據類型。實際上,語句np.int32 == tf.int32的結果爲True。對於數值

原创 python基礎學習--字典

    字典是另一種可變容器模型,且可存儲任意類型對象。     字典的每個鍵值(key=>value)對用冒號(:)分割,每個對之間用逗號(,)分割,整個字典包括在花括號({})中 ,格式如下所示:d = {key1 : value1,

原创 信息量與熵筆記

主要是學習七月算法熵與信息量所作的一些筆記,當然也參考了一些博客,這裏對他們表示衷心的感謝! 自信息 如果說概率p是對確定性的度量,那麼信息就是對不確定性的度量。 I(x) = -log(p(x)) 如果兩個事件X和Y獨立,即p(xy

原创 spark資源調度分配

一.任務調度與資源調度的區別 1.任務調度是通過DAGScheduler、TaskScheduler、SchedulerBackend等進行的作業調度 2.資源調度是指應用程序如何獲得資源 3.任務調

原创 python的pandas學習筆記

import pandas as pd import numpy as np from pandas import Series,DataFrame obj = Series(range(5),index=['a','a','b'

原创 機器學習筆記--機器學習的基礎

機器學習的基礎 1. 何謂機器學習 簡單地說,機器學習就是把無序的數據轉換成有用的信息。機器學習橫跨計算機科學、工程技術和統計學等多個學科,需要多學科的專業知識。 機器學習的主要任務就是分類

原创 python基礎學習--元組

不知道怎樣將python的notebook導入CSDN,直接負責粘貼了,做筆記備份。 元組使用小括號,列表使用方括號。 創建空元組 tup1 = (); 元組中只包含一個元素時,需要在元素後面添加逗號 tup1 = (50

原创 機器學習筆記--K-近鄰算法(一)

機器學習實戰這本書的例子很多也很好,問題導向型的,所以例子也是循序漸進。如果真要讀懂,一遍是不夠的,特別是我這種渣。其實寫機器學習實戰筆記的同時,我都或多或少的參考了《機器學習與R語言》這本書,相互借鑑,看看同樣的問題表述,兩者有

原创 python基礎學習--列表

In [1]:list = ['a','b','c',1997,2000]In [2]:list[1:5] Out[2]:['b', 'c', 1997, 2000] In [4]:list Out[4]:['a', 'b', 2000,

原创 機器學習筆記--K-近鄰算法(三)

手寫識別系統 0、說明 環境:window7 64位 python 3.5 與python2.7原文的代碼有些不一樣。 本節我們一步步地構造使用k-近鄰分類器的手寫識別系統。爲了簡單起見,這裏構造的系統只能識別數字0到9. 需要