原创 python異常處理:try-except語句的應用

讀寫文件時候文件打開錯誤或者文件寫入錯誤,寫爬蟲時網絡請求失敗,返回錯誤404.再或者函數處理一些不確定參數時候,都可以用到異常捕獲。 異常可以通過 try 語句來檢測. 任何在 try 語句塊裏的代碼都會被監測, 檢查有無異常發生。 t

原创 靜態爬蟲研究

1.HTML代碼 所謂的html代碼,瀏覽博客的你右手一定在鼠標上,好的,跟着我左手右手一個慢動作,點擊右鍵,找到“查看網頁源代碼”,不同瀏覽器可能這個描述不太一樣,博主是Chrome,不過都差不太多,是不是有看到類似下面這個圖的一堆不知

原创 數據庫基礎知識1

1.主流數據庫管理系統有哪些? 數據庫管理系統(DBMS)是爲管理數據庫而設計的計算機軟件系統,一般具有存儲、截取、安全保障、備份等基礎功能,目前主流的數據庫管理系統有:Oracle、MySQL、SQL Server、DB2和Sybase

原创 數據庫基礎知識——數據模型

  數據模型:用來表示實體類型以及實體間聯繫的模型,用於抽象描述數據的邏輯結構。 包括三部分主體: 數據結構:實體類型以及實體間聯繫 數據操作:對數據庫的檢索和更新(插入、刪除、更改) 數據完整性約束: 實體Entity:具有相同屬性和特

原创 sklearn報錯Error message: fit_transform() takes 2 positional arguments but 3 were given的解決方法

最近在讀 Hands-On Machine Learning with Scikit-Learn & TensorFlow 這本書,在學到pipeline的時候,我模仿者寫了這也的代碼: [python] view plain copy

原创 分類器的性能評估指標:混淆矩陣、精度、召回率、ROC曲線等等

在使用迴歸器的時候,我們通常用預測結果的準確率來評估模型的優良與否,但該指標並不一定適用於分類器,特別是處理某些偏斜數據集(即某些類比其他類更爲頻繁時)時。 評估分類器性能的更好方法是混淆矩陣。總體思路就是統計A類別實例被分成爲B類別的次

原创 數據獲取渠道

使用真實數據學習機器學習最好使用真實數據進行實驗, 而不僅僅是人工數據集。 我們有成千上萬覆蓋了各個領域的開放數據集可以選擇。 以下是一些可以獲得數據的地方: ·流行的開放數據存儲庫: ·UC Irvine Machine Learnin

原创 Spyder快捷鍵

塊註釋/塊反註釋 Ctrl + 4/5  斷點設置 F12  關閉所有 Ctrl + Shift + W  代碼完成 Ctrl +空格鍵  條件斷點 SHIFT + F12  配置 F6  複製 Ctrl + C  向下複製 Ctrl +

原创 hist()參數詳解

import matplotlib.pyplot as plt housing.hist(bins=50, figsize=(20,15)) bins指bin(箱子)的個數,即每張圖柱子的個數 figsize指每張圖的尺寸大小    

原创 決策樹(一):ID3算法

1.決策樹的基本原理與僞代碼 決策樹算法,是一種監督學習的分類算法,可細分爲ID3、C4.5、CART等三種算法,前兩種適用於標稱型數據,後一種適用於數值型數據。 1.1決策樹的基本原理: 所謂決策樹,即根據樣本數據集的不同特徵不斷對數據

原创 機器學習輕鬆入門——KNN算法的PYTHON語言實現

KNN算法,也稱K近鄰算法,是一種監督學習的分類算法。 本篇文章主要由以下幾個方面構成: KNN算法的原理及僞代碼 KNN算法的優缺點 KNN算法實現手寫數字識別系統 1.KNN算法的原理及僞代碼 KNN算法,即在已知訓練集數據所對應標籤