原创 Pytorch Day-1

1 Tensor 基本操作 Tensor與Numpy很相似,常用的操作如下 隨機生產一個指定行列的矩陣,每個值都會介於0-1之間 import torch x = torch.randn(5,3) print(x)

原创 Adaboost-Python代碼實踐

基於單層決策樹的Adaboost實踐 Adaboost 計算流程: 首先給定數據集,基於弱學習器計算分類誤差: 計算該學習器的權重: 更新權重分佈,分類錯誤的樣本會獲得更高的權重,從而使得其在下一次迭代時受到更多的關注

原创 Ng-機器學習(Day 9 完結啦)

一、 異常檢查 假設我們已經收集到了一些數據集,並希望利用這些數據形成一個模型P,當我們輸入測試樣本x_test,這個模型能夠幫我們判斷這個樣本是否爲異常數據(數據分佈如下圖所示)。 1 參數估計 概念:給定不帶標籤的數

原创 Ng-機器學習(Day7)

SVM最大間距回顧: 設SVM找到的決策邊界函數爲:f(x)=wTx+b(其中w就相當於Logistic迴歸當中的θ1、θ2…,b就是θ0)。當f(x)=0時就代表樣本點在決策邊界線上。如下圖所示當f(x)<-1時就是負樣本,

原创 Ng-機器學習(Day 8)

一、 無監督學習 1 K-Means K-Means聚類分析方法的步驟: 首先隨機初始化K個點(K取決於需要分成的類別數) 將離初始化點近的點分別歸類,比如下圖,藍色的原點離藍色的×比較近,所以就被歸爲此類。紅色的也同

原创 樸素貝葉斯-新聞分類(跟練)

實例:新聞分類器: 參考:這篇 首先將文件當中的文字取出,分別存到列表當中,並且返回存放字出現頻率從高到底排列的列表: import os import jieba from sklearn.naive_bayes impo

原创 樸素貝葉斯-Day 1

1 貝葉斯: 思想: 知道結果反推原因。 例子: 有1、2、3號工廠,並且沒個廠房生產出次品的概率分別爲:0.1、0.2、0.3 求出現的次品是由3號工廠所生產的概率 解: 設:事件B爲出現次品,事件A1、A2、A3分佈代表1、2

原创 Matplotlib柱狀圖加百分比解決辦法

import pandas as pd import numpy as np from matplotlib import pyplot as plt score = pd.read_excel('E:/Data/前測自我認同感量

原创 統計學學習-Day3

四種數: 平均值:看某一組數據的平均情況(注:平均數對異常值的敏感程度太低,其結果往往很有爭議) 四分位數:用來比較不同類別數據的整體情況;通過箱線圖可以用來檢驗出異常值 標準差:用來衡量數據的波動大小 標準分:用來描述某數值的

原创 統計學學習-Day2

多變項分析 :由面到體 一果多因:多元迴歸分析 一果多因 淨(偏)迴歸係數 1、從下表可見受教育程度對於工資的影響比上一次做一因一果迴歸分析的時候第。原因在於原來做的一因一果線性迴歸分析出來的結果是受教育水平影響工資的毛重。而這

原创 利用Python驗證中心極限定理

中心極限定理: 從一個給定的服從任意分佈的總體當中,每次抽n個樣本,一共抽取m次。然後再對這m各組的值求平均值,各組的平均值會服從近似正態分佈。 首先模擬隨機擲色子1000次觀察一下平均值。 import numpy as n

原创 爬蟲練習(四)-電影票房爬取與可視化

目標: 1、從網站上爬取電影名,電影票房 2、用條形圖進行可視化 思路: 1、找網站接口 由上可見每個電影都有一個4位代碼號 2、拆分動作(找出存放電影代碼的列表-抓網頁-存列表-可視化) 代碼: 1、存電影代碼的列表 htm

原创 數據分析學習總結-非本人的心理學論文(工具:SPSS)

實驗(一) 研究設計: 選取由高一、高二、高三組成的265名高職學生,對他們進行心理測試,維度如下: 學生填寫的分類信息包括:年級、性別、是否爲獨生子女。 身體與體育競賽適應、陌生情境與學習情境適應、考試焦慮情景適應、羣體活動適

原创 爬蟲練習(三)-寧波天氣爬取

#目標: ##1、從天氣網站上爬取寧波12月的天氣 ##2、所需信息:日期,溫度,天氣情況 #網站規律: 12月22日天氣網頁 12月24日天氣網頁 由上可見,天氣網頁是與日期有關,因此在URL設置時改變後2位數即可 #思路: