原创 機器學習原理概圖

本圖來自7月在線,僅方便個人學習上傳的

原创 梯度提升樹(Gradient Boosting Tree)算法原理

一 計算過程: 輸入: *(xi,yi),T,L(x_i,y_i),T,L(xi​,yi​),T,L 1.初始化f0f_0f0​ 2.for t=1 to T do 2.1. 計算響應:yi^=−[∂L(yi,F(xi))∂F(x

原创 最大似然函數,琴生不等式

1.最大似然函數定義 Y={y1,y2,…yn} p(y1,y2,…yn)=p(y1)p(y2)…p(yn) 即y1,y2,…yn爲獨立同分布 似然函數: likelihood=∏j=1Np(yi)\prod_{j=1}^{N}p

原创 隱馬爾可夫模型

https://blog.csdn.net/zhuqiang9607/article/details/83934961

原创 如何通俗理解EM算法

https://blog.csdn.net/v_JULY_v/article/details/81708386?tdsourcetag=s_pcqq_aiomsg

原创 學習曲線

https://blog.csdn.net/qq_36523839/article/details/82556932

原创 特徵空間和屬性空間

語境:機器學習中 屬性空間:所有屬性的張成空間 特徵空間:所選擇的排除線性相關和對模型構建沒有益處後的屬性構成的屬性空間就叫特徵空間。 屬性空間>=特徵空間

原创 信息量,熵,聯合熵,互信息,條件熵

1.信息量 含義:對信息的度量。概率越小,信息量越大。 公式:h(xi)=−log2p(xi)h(x_i)=-log_2p(x_i)h(xi​)=−log2​p(xi​) 或者h(xi)=log21p(xi)h(x_i)=log_

原创 markdown中數學公式整理

見這篇文章,寫得蠻詳細的 https://blog.csdn.net/zdk930519/article/details/54137476

原创 用tushare上的數據分析數幣交易所情況

1.code: import tushare as ts import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib ma

原创 Bagging

bagging:對數據集(樣本)做有放回採樣。 目的:防止學到噪音樣本。 RF:對數據集(樣本)做有放回採樣,同時對特徵做採樣。 目的:防止學到噪音樣本和噪音特徵。 來自七月在線課程截圖,僅方便個人複習時查找

原创 python matplotlib,plt.pie,plt.bar(bike數據的分析)

說在前面:這個是七月在線線下課程的一個課件,侵權的話聯繫刪除,想學的可以點擊鏈接買,運行環境是notebook。因爲方便手機查看,所以把這個放博客上。 import matplotlib.pyplot as plt import

原创 python模擬鬥地主(@classmethod的用法)

1.代碼如下: import random class Poke(): poke = [] # 撲克牌牌堆 p1 = [] # 玩家一牌堆 p2 = [] # 玩家二牌堆 p3 = [] # 玩家三牌堆 las

原创 pyspark.sql(dataFrame)相關函數的查詢網址

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html

原创 python中讀取zip壓縮文件

import zipfile with zipfile.ZipFile(‘KaggleCredit2.csv.zip’,‘r’) as z: f=z.open(‘KaggleCredit2.csv’) data = pd.read