原创 機器學習/數據挖掘知識整理

目錄 一、常用排序算法 二、正負樣本不平衡處理方法總結 三、過擬合和欠擬合 1、過擬合 2、欠擬合 四、向量的相似度計算常用方法 五、模型參數和超參數 六、模型評價 1、準確率Accuracy、查準率(精確率)precision、查全率(

原创 python.matplotlib/datatime/CSV學習範例-讀取CSV格式文件生成折線圖

import csv from datetime import datetime from matplotlib import pyplot as plt filename='D:\python program\weather.csv'

原创 排序算法

目錄 一、插入排序 1、直接插入排序 2、希爾排序 三、選擇排序 1、簡單選擇排序 2、堆排序 三、交換排序 1、冒泡排序 2、快速排序 四、歸併排序 五、基數排序     一、插入排序 1、直接插入排序 直接插入排序的核心思想就是:

原创 爬取貓眼電影相關信息

import json import re import requests from requests.exceptions import RequestException #定義抓取一個頁面代碼 def get_one_page(ur

原创 聚類算法

目錄 1、k-means 2、密度聚類DBSCAN 3、使用高斯混合模型(GMM)的期望最大化(EM)聚類 3.1、EM算法 4、層次聚類 聚類指事先並不知道任何樣本的類別標號,希望通過某種算法來把一組未知類別的樣本劃分成若干類別,聚類的

原创 模型融合:stacking&blending

對於機器學習和深度學習來說,用單模型的效果往往都沒有進行模型融合後的效果好。 對模型來說,我們需要選擇具有多樣性、準確性的模型,對於融合的方式來說也有很多種,比如最簡單的取平均或者投票法就是一種。這裏主要講一下stacking和blend

原创 決策樹—ID3、C4.5、CART

目錄 一、決策樹模型與學習 1、決策樹模型 2、決策樹學習     二、特徵選擇 1、信息增益 2、信息增益率 三、決策樹的生成 1、ID3算法 2、C4.5算法 3、CART算法 四、決策樹停止分裂的條件 五、連續值和損失值處理 決策樹

原创 集成學習—Boosting、Bagging

集成學習 集成學習(ensemble learning)通過構建並結合多個學習器來完成學習任務,有時也被稱爲多分類器系統(multi-classifier system). 如下圖,集成學習的一般結構是:先產生一組“個體學習器”(indi

原创 機器學習/數據挖掘題目整理

目錄   一、常用排序算法 二、正負樣本不平衡處理方法總結 三、過擬合和欠擬合 1、過擬合 2、欠擬合 四、向量的相似度計算常用方法 一、常用排序算法 二、正負樣本不平衡處理方法總結 原始數據中經常存在正負樣本不均衡,比如正負樣本的數據

原创 python.pygal/random學習範例-模擬擲六面骰子點數次數生成直方圖

from random import randint class Die(): '''表示一個骰子的類''' def __init__(self,num_sides=6): '''骰子認爲6面''' self.num_side

原创 scrapy爬蟲-爬取慕課網全部課程

1、創建工程 scrapy startproject scrapytest 2、創建爬蟲文件 在scrapytest/spiders/目錄下創建一個文件MySpider.py 3、定義爬取項目 在items.py同一層創建一個新的item

原创 python.scrapy爬蟲-xpath查詢語法

語法鏈接:http://www.w3school.com.cn/xpath/xpath_syntax.asp xpath查詢語法 1、查詢標籤中帶有某個class屬性的標籤://div[@class=’c1’]即子子孫孫中標籤是di

原创 python.json/pygal.maps.world學習範例-讀取json格式文件、生成世界地圖

import pygal import json #國別碼存儲的模塊2位 from pygal.maps.world import COUNTRIES #修改圖表的主題(背景色、標籤、顏色) from p

原创 selenium和pyquery爬取淘寶美食商品信息

1、用selenium自動爬取淘寶美食的商品信息,先定義search方法,該方法用來在搜索框中輸入“美食”,然後點擊搜索按鈕。瀏覽器加載需要時間,要判斷瀏覽器加載成功再執行下一步的操作,其使用方法可在python-selenium官網查看

原创 利用requests和正則表達式re爬取貓眼電影top100,並下載圖片

下載圖片部分有錯誤,不能全部下載 import json import re import requests from requests.exceptions import RequestException #定義抓取一個頁面代碼 def