原创 機器學習——基本術語

第一章  基本術語 1、機器學習的定義:從數據中自動的歸納邏輯或規則,並根據這個歸納的結果與新數據來進行預測的算法。要討論算法的相對優劣,必須要針對具體的學習問題。 2、目標:使得學得的模型能很好的適用於“新樣本”,而不僅僅在訓練樣本上

原创 python——多重表達式

多層表達式 for循環可以嵌套,因此,在列表生成式中,也可以用多層 for 循環來生成列表。 對於字符串 'ABC' 和 '123',可以使用兩層循環,生成全排列: >>> [m + n for m in 'ABC' for n in

原创 數據挖掘——基本概念

1、定義:對於數據挖掘我們可以從兩個角度來定義它: a. 技術定義:數據挖掘是通過對大量的數據進行分析,以發現和提取隱含在其中的具有價值的信息和知識的過程。 b.商業定義: 數據挖掘是一種新的商業信息處理技術, 其主要特點是對商業數據庫中

原创 Python之修改元素

Python之修改元素 現在,班裏有3名同學: >>> L = ['Adam', 'Lisa', 'Bart'] 今天,班裏轉來一名新同學 Paul,如何把新同學添加到現有的 list 中呢? 第一個辦法是用 list 的 a

原创 python——爬蟲

原创 K最近鄰分類算法(KNN)

1、基本思想:給定一個測試樣本,計算它與訓練集中每個對象的距離,圈定距離最近的k個訓練對象作爲其最近鄰,然後使用這k個最近鄰中出現次數最多的類標號作爲測試樣本的類標號值。 每個樣本可以表示爲(x,x,x,x,....y)的形式,其中x表示

原创 python——基礎1

Python之print語句 print語句可以向屏幕上輸出指定的文字。比如輸出'hello, world',用代碼實現如下: >>> print 'hello, world' 注意: 1.當我們在Python交互式環境下編寫

原创 KNN算法理解

一、算法概述 1、kNN算法又稱爲k近鄰分類(k-nearest neighbor classification)算法。 最簡單平凡的分類器也許是那種死記硬背式的分類器,記住所有的訓練數據,對於新的數據則直接和訓練數據匹配,如果存在

原创 機器學習——模型評估和選擇

第二章  模型評估和選擇  基本概念: 1、過擬合(過配):將訓練樣本自身的一些特點當作了所有潛在樣本都具有的一般特性,導致泛化性能下載。 2、欠擬合(欠配):無法從訓練樣本中學習到足夠量的所有潛在樣本都具有的一般特性。 3、誤差:學習器

原创 Eclipse和PyDev搭建完美Python開發環境(Windows篇)

爲什麼不用別的IDE呢? IDLE是小打小鬧用的,那個WingIDE是要錢的,而且用不慣。Eclipse+PyDev插件是最主流的Python開發

原创 Python——條件過濾

條件過濾 列表生成式的 for 循環後面還可以加上 if 判斷。例如: >>> [x * x for x in range(1, 11)] [1, 4, 9, 16, 25, 36, 49, 64, 81, 100] 如果我們只想要偶數

原创 Python中整數和浮點數

Python中整數和浮點數 Python支持對整數和浮點數直接進行四則混合運算,運算規則和數學上的四則運算規則完全一致。 基本的運算: 1 + 2 + 3 # ==> 6 4 * 5 - 6 # ==> 14 7.5 /

原创 python——基礎2

Python中什麼是變量 在Python中,變量的概念基本上和初中代數的方程變量是一致的。 例如,對於方程式 y=x*x ,x就是變量。當x=2時,計算結果是4,當x=5時,計算結果是25。 只是在計算機程序中,變量不僅可以是

原创 Python——基礎總結

1、list[]可變  append() 2、tuple()指向不可變 len() 3、dict{}鍵值對,key不可變  get() 4、set(

原创 Python之倒序訪問list

Python之倒序訪問list 我們還是用一個list按分數從高到低表示出班裏的3個同學: >>> L = ['Adam', 'Lisa', 'Bart'] 這時,老師說,請分數最低的同學站出來。 要寫代碼完成這個任務,我們可